题目标题

数据不平衡问题

难度:初级

机器学习
参考解析

这主要是由于数据分布不平衡造成的。解决方法如下:
1)采样,对小样本加噪声采样,对大样本进行下采样
2)进行特殊的加权,如在 Adaboost 中或者 SVM 中 3)采用对不平衡数据集不敏感的算法
4)改变评价标准:用 AUC/ROC 来进行评价
5)采用 Bagging/Boosting/Ensemble 等方法
6)考虑数据的先验分布