题目标题

决策树怎么控制过拟合?

难度:初级

机器学习
参考解析

决策树生成算法递归地产生决策树,直到不能继续下去为止。这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即过拟合现象。过拟合的原因在于决策树过于复杂,通过剪枝,从已生成的树上裁剪掉一些子树或叶结点,并将其根节点或父节点作为新的叶结点,从而简化树模型,降低过拟合。

常用的剪枝方法有预剪枝和后剪枝。

我们还可以通过控制树深,对样本或特征进行采样,控制分裂叶子节点最少样本数,最小gain提升等来控制过拟合