返回顶部

LR为什么要使用极大似然函数,交互熵作为损失函数?那为什么不选平方损失函数的呢

0

0/300

评论 1

Andre老师@小象学院

更新速度只与真实的x和y相关,与激活函数无关,更新平稳比如mse就会导致更新速度与激活函数sigmoid挂钩,而sigmoid函数在定义域内的梯度大小都比较小(0.25>x),不利于快速更新mse下的lr损失函数非凸,难以得到解析解

2021-11-25 11:38:43

- 没有更多了 -