题目标题

逻辑回归中样本不均衡我们怎么处理?

难度:中级

机器学习
参考解析

a. 调整分类阈值,不统一使用 0.5,根据样本中类别的比值进行调整。
b.多类样本负采样。进一步也可将多类样本负采样构建多个训练集,最后聚合多个模型的结果。
c.少类样本过采样。过采样的方法大致有三种:
​ c1: 随机复制
​ c2: 基于聚类的过采样
​ c3: SMOTE
d. 改变性能指标,推荐采用 ROC AUC、F1 Score4.
e.模型训练增加正负样本惩罚权重,少类样本权重加大,增大损失项。