题目标题

知道梯度消失吗,导致梯度消失的两个原因是什么。什么激活函数会导致梯度消失。有什么不同的激活函数。梯度消失怎么解决。

难度:中级

深度学习
参考解析

梯度消失:梯度趋近于零,网络权重无法更新或更新的很微小,网络训练再久也不会有效果;
梯度爆炸:梯度呈指数级增长,变的非常大,然后导致网络权重的大幅更新,使网络变得不稳定。
Sigmoid导数的取值范围在0~0.25之间,而我们初始化的网络权值图片: https://uploader.shimo.im/f/6m1gJwJDrja940bL.png通常都小于1,因此,当层数增多时,小于0的值不断相乘,最后就导致梯度消失的情况出现。同理,梯度爆炸的问题也就很明显了,就是当权值图片: https://uploader.shimo.im/f/TO8L6nw2ZURSo26v.png过大时,导致 图片: https://uploader.shimo.im/f/6HBrRUzvfYPqbkey.png,最后大于1的值不断相乘,就会产生梯度爆炸。