题目标题

Bert 在各个开源数据集上都做到了 state-of-the-art 的效果, 最近很多 bert的改进版, 你有了解么?

难度:初级

python 算法 NLP
参考解析

比如Albert,它主要是在三点内容上对bert进行了改进,减少了embedding size,使其不再与Transformer的Hidden Size相等;共享Transformer 和 FC的参数;改变NSP negative sample的构造方法。对于减小embedding size这一点,其实在平时实验过程中也深有感触,在有些task上拿bert的embedding层出来接其他model,效果可能比glove差。尤其是当用bert-large的时候,那embedding size可能是1024,主要还是size太大,太过稀疏,而减小了主要的feature维度的贡献;共享参数大概单纯只是想减小参数维度,毕竟multihead的有效性还是摆在那里的;至于第三点,大概也是随机选择negative sample的一个通病,在这里给出的解释是之前random negative sample容易让模型学习到主题匹配这个比较简单的任务取,而忽略更深层的语义连贯性语义。