题目标题

为什么L1正则化会让模型得到稀疏解?与之相比的L2正则化呢,它的解有什么特点?

参考解析

我们可以利用公式进行解释。
假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:


L1和L2的区别:
(1)L1 相对于 L2 能够产生更加稀疏的模型
(2)L2 相比于 L1 对于离异值更敏感(因为平方的原因, L2 对于大数的乘法比对小数的惩罚大)
(3)L1 和 L2 梯度下降速度不同: 前者梯度恒定, 并且接接近于 0 的时候会很快将参数更新成0, 后者在接近于0 时, 权重的更新速度放缓, 使得不那么容易更新为0 (这也解释了为什么 L1 具有稀疏性)