题目标题

为什么 LSTM 模型中既存在 Sigmoid 又存在 Tanh 两种激活函数?

难度:初级

深度学习
参考解析

二者目的不一样:sigmoid 用在了各种 gate 上,产生 0~1 之间的值,这个一
般只有 sigmoid 最直接了。tanh 用在了状态和输出上,是对数据的处理,这
个用其他激活函数或许也可以。