返回顶部

为什么选取的15%的词中有80%用[mask]来替换,10%用原词,剩余的10%用随机词来替换

0

0/300

评论 1

Andre老师@小象学院

不全部用mask来遮掩,是因为下游任务微调中不会出现mask,这样会导致预训练模型和下游任务不匹配。同时在预测时,因为不知道这个词是否是正确的,会使模型更加依赖上下文,有一定的纠错能力。

2021-11-23 17:21:29

- 没有更多了 -