题目标题

有几种不同的决策树,区别在哪?

难度:初级

机器学习
参考解析

ID3决策树的输入训练数据是一组带有类别标记的样本,构造的结果是一棵多叉树。树的分支节点一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值。如果选择在某一节点上用哪个特征呢?标准是在该节点上选取能对该节点处的训练数据进行最优划分的属性。划分的标准是信息增益(Information Gain),即划分前后数据集的熵的差异。取能带来最大信息增益的那个feature作为当前划分标准。ID3的特点:(1)容易造成过度拟合。(2)使用标称型数据,但是很难处理连续型数据
由于信息增益选择分裂属性的方式会倾向于选择具有大量值的属性(即自变量),如有一个特征是“客户ID”,即按此变量划分每个划分都是纯的(即完全的划分,只有属于一个类别),客户ID的信息增益为最大值1。但这种按该自变量的每个值进行分类的方式是没有任何意义的。为了避免这个不足C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。
信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外,C4.5还弥补了ID3中不能处理特征属性值连续的问题。但是,对连续属性值需要扫描排序,会使C4.5性能下降。这是C4.5的两个重大改进。
相比前两种决策村算法,CART最大的特色它是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。