返回顶部

源码中Attention后实际的流程是如何的?

0

0/300

评论 1

Andre老师@小象学院

Transform模块中:在残差连接之前,对output_layer进行了dense+dropout后再合并input_layer进行的layer_norm得到的attention_output 所有attention_output得到并合并后,也是先进行了全连接,而后再进行了dense+dropout再合并的attention_output之后才进行layer_norm得到最终的layer_output

2021-11-23 17:27:34

- 没有更多了 -