题目标题

如何理解模型的过拟合与欠拟合,以及如何解决?

难度:高级

机器学习
参考解析

欠拟合:

模型表达能力弱,不能完全拟合数据集。

缓解欠拟合:

增加维度特征,可以通过多项式高次特征、统计等方式增加新的维度

过拟合:

模型过于拟合训练集,导致对于一些噪声误差数据也进行了拟合,这样的模型泛化能力较差。说直白就是对训练集进行了”死记硬背“,会导致到了测试集上无法拟合。

缓解过拟合:

对某些模型来讲最粗暴的方式就是直接增加训练集的大小
在代价函数后面添加正则化项(L1、L2正则),例如lasso和ridge等
bagging方式中的投票机制和bootstrap,例如随机森林等,让每棵树只看到一部分样本
树模型中可以对树的深度、叶子结点个数等参数进行限制,防止模型过拟合
树模型的剪枝操作
神经网络中的dropout等