返回顶部

自然语言处理

420浏览

235内容

multi-head attention的具体结构

MBGD可以介绍下嘛

BGD有什么优缺点嘛?

SGD的优缺点是什么?

如何选择激活函数

AdamW是什么?

Adam是什么?

正在加载...
1 2 3 4 5 6 7 8 9 10 11 12