题目标题

L1/L2正则化之间的差别?以及原因?

难度:初级

机器学习
参考解析

l L1正则化具有截断效应,L2正则化具有缩放效应,换句话说L1正则化具有特征选择的作⽤。
l 可以从两个⽅⾯来解释:
① L1和L2分别是求有约束条件下的函数损失函数的最优值,L1的约束条件是正⽅形的,当取得最优值时与坐标轴的相交的概率较⼤,L2约束条件是圆形的,损失函数取得最优值与坐标轴橡胶的概率较低。
② 从⻉叶斯的⻆度来解释,L1正则相当于对参数加了⼀个拉普拉斯分布的先验,L2相当于对参数加了⼀个⾼斯分布的先验,拉普拉斯分布的特点就是在参数为0出的概率密度极⼤,⽽⾼斯分布的特点是参数在0附近的概率密度都很⼤,因此L1更容易使得参数变为0(即筛除特征)