通过介绍两个实用决策树来深入理解决策树算法。
C5.0算法:
C5.0是c4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,根据能够带来的最大信息增益的字段拆分样本,占用的内存资源较少。CART算法:
CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。在Python中,scikit-learn使用CART算法的优化版本;然而, scikit-learn实现目前不支持分类变量。
C5.0算法
1、C5.0 算法是 C4.5 的一个商业化版本,没有十分具体的算法过程。
2、C5.0 是一种多叉树(即如果根节点或中间节点存在连续型的自变量,则该变量会一分为二的展开两个分支;如果根节点或中间节点存在离散的自变量,则该变量会根据离散变量的水平数分开多个分支),就会导致某个变量一旦被使用,后面的节点将不会再启用该变量。
CART算法
1、CART 算法是一颗二叉树 ( 回归树 ) ,也就是一个结点一般只有左右两个孩子结点。
2、CART 算法是通过基尼系数 ( Gini coefficient/index ) 来进行最优分割的。
----以上为个人思考与见解,有误请指点,有想法也可联系交流