LOADING...

加载过慢请开启缓存(浏览器默认开启)

loading

决策树 —— C5.0和CART

通过介绍两个实用决策树来深入理解决策树算法。

C5.0算法:
C5.0是c4.5算法的修订版,适用于处理大数据集,采用Boosting方式提高模型准确率,根据能够带来的最大信息增益的字段拆分样本,占用的内存资源较少。

CART算法:
CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。

在Python中,scikit-learn使用CART算法的优化版本;然而, scikit-learn实现目前不支持分类变量。

C5.0算法

1、C5.0 算法是 C4.5 的一个商业化版本,没有十分具体的算法过程。

2、C5.0 是一种多叉树(即如果根节点或中间节点存在连续型的自变量,则该变量会一分为二的展开两个分支;如果根节点或中间节点存在离散的自变量,则该变量会根据离散变量的水平数分开多个分支),就会导致某个变量一旦被使用,后面的节点将不会再启用该变量。

CART算法

1、CART 算法是一颗二叉树 ( 回归树 ) ,也就是一个结点一般只有左右两个孩子结点。

2、CART 算法是通过基尼系数 ( Gini coefficient/index ) 来进行最优分割的。

----以上为个人思考与见解,有误请指点,有想法也可联系交流

谢谢观看!

决策树 —— C4.5 (一) 算法简述
决策树 —— C4.5 (二) 剪枝细述

img_show