返回顶部

bert的优点和缺点及可以改进的地方

0

0/300

评论 1

Andre老师@小象学院

优点 bert将双向 Transformer 用于语言模型,Transformer 的 encoder 是一次性读取整个文本序列,而不是从左到右或从右到左地按顺序读取,这个特征使得模型能够基于单词的两侧学习,相当于是一个双向的功能。 bert 相较于rnn,lstm可以并发进行,并且可以提取不同层次的信息,反应更全面的句子语义。相较于 word2vec,根据句子上下文获取词义,避免了歧义出现。 缺点 bert模型参数太多,而且模型太大,少量数据训练时,容易发生过拟合。 bert模型预训练会出现mask,而在下游的微调任务中并不会出现,使得不匹配。 bert模型会将词分成词根一样的词片,若随机遮掩一些词的时候,若遮掩住中间的的词片,则会发生不是根据上下文的语义预测的。 eg:是根据probability 这个词被切分成”pro”、”#babi”和”#lity”3 个 WordPiece。有可能出现的一种随机 Mask 是把”#babi” Mask 住,但是”pro”和”#lity”没有被 Mask。这样的预测任务就变得容易了,因为在”pro”和”#lity”之间基本上只能是”#babi”了。这样它只需要记住一些词(WordPiece 的序列)就可以完成这个任务,而不是根据上下文的语义关系来预测出来的。类似的中文的词”模型”也可能被 Mask 部分(其实用”琵琶”的例子可能更好,因为这两个字只能一起出现而不能单独出现),这也会让预测变得容易。 为了解决这个问题,很自然的想法就是词作为一个整体要么都 Mask 要么都不 Mask,这就是所谓的 Whole Word Masking。

2021-11-23 17:25:30

- 没有更多了 -