题目标题

决策树,比如ID3 怎么做特征的离散化的

难度:初级

算法
参考解析

思想
从信息论的知识中我们知道:信息熵越大,从而样本纯度越低,。ID3 算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间(C4.5 也是贪婪搜索)。 其大致步骤为:

初始化特征集合和数据集合;
计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点;
更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不同分支的数据集合);
重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。

划分标准
ID3 使用的分类标准是信息增益,它表示得知特征 A 的信息而使得样本集合不确定性减少的程度。