返回顶部

bert的损失函数

0

0/300

评论 1

Andre老师@小象学院

bert的损失函数包括两部分,一个是句子中预测遮掩词的损失(MLM),另一个是判断是否是下一句的损失(NSP) MLM:在 encoder 的输出上添加一个分类层,用嵌入矩阵乘以输出向量,将其转换为词汇的维度,用 softmax 计算mask中每个单词的概率 NSP:用一个简单的分类层将 [CLS] 标记的输出变换为 2×1 形状的向量,用 softmax 计算 IsNextSequence 的概率

2021-11-23 17:24:19

- 没有更多了 -