题目标题

什么造成梯度消失问题? 推导一下

难度:中级

机器学习
参考解析

神经网络的训练中,通过改变神经元的权重,使网络的输出值尽可能逼近标签
以降低误差值,训练普遍使用 BP 算法,核心思想是,计算出输出与标签间的
损失函数值,然后计算其相对于每个神经元的梯度,进行权值的迭代。
梯度消失会造成权值更新缓慢,模型训练难度增加。造成梯度消失的一个原因
是,许多激活函数将输出值挤压在很小的区间内,在激活函数两端较大范围的
定义域内梯度为 0,造成学习停止。