/
返回顶部
自然语言处理
416浏览
235内容
码农SSKK
2021-08-09 18:28:15
为什么要做position embedding/encoding?为什么self attention 无法学习到序列信息?
展开
1
0
3
2021-08-09 18:27:34
为什么要使用qeury,value,key矩阵?(为什么不能直接对embedding进行自身的点积,为什么k不能直接和自身k进行点积)
2021-08-09 18:23:21
transformer的输入是什么样的?
2021-08-09 18:22:56
为什么使用softmax之后,后续有不少工作尝试对softmax进行替换?
木子QAQRU
2021-08-09 18:21:40
为什么要做softmax 标准化?
金牌老司机
2021-08-09 18:20:23
老师,应该怎么理解注意力机制?
kamisara
2021-08-09 18:06:46
老师,transformerer多层编码器最后的输出的不知道为什么是K,V。解码器的多头自注意力下面的掩码自注意的输出是Q吗?解码器最下面的outputs,shifted right是?
秋园
2021-08-06 18:32:57
出于好奇问下,学习率可以设置为1吗?看到这里为1,比较罕见。 optimizer=AdamLR(learning_rate=1e-4, lr_schedule={ 1000: 1,。 2000: 0.1。
4
果冻鸭kj
2021-08-06 16:22:19
多任务学习中参数硬共享和软共享有什么区别?
5
2021-08-06 16:22:04
我们应该在深度学习中进行交叉验证吗?
冒蓝火的加特林
2021-08-06 16:21:39
AdamW和Adam有什么区别?
2021-08-06 16:21:03
Adam优化器的局限性是什么?
2021-08-06 16:20:09
LSTM的hidden和cell state包含哪些信息?
2021-08-06 16:19:50
用SVD学到的latent features和用深度网络学到的embedding vectors有什么区别?
不想当厨子
2021-08-06 16:19:16
什么是perplexity?它在nlp里的位置是?
2021-08-06 16:17:02
如果1句话有很多实体 现在需要做关系抽取 如果除了有关系的实体对之外 都算负样本 结果就是负样本数量特别大 有什么好的办法?
2021-08-06 16:16:15
KL散度描述两个分布之间的差异,在实际机器学习应用中,p是真实分布,Q是预测分布,KL值越小,则这个模型训练的越好。就相当于是个损失函数。是这个意思对吗?
2021-08-06 16:15:47
现在对于年龄段是5,6这样只有几百条几千条的数据,别的分类都上万了,需要怎么让这2类的数据均衡呢?我现在是将多的数据随机抽取到和少的一样,但是这样会丢失很多训练数据,我还有一种想法是把少的数据不断重复到和多的数据一样多,我不知道这个做法是否可行?
2021-08-06 16:15:11
慢羊羊啊
2021-08-05 16:48:22
如何减少训练好的神经网络模型的推理时间?
知识、问题、经验、心得
发动态
图片
0/600