返回顶部

bert的分词模块FullTokenizer可以说下嘛

0

0/300

评论 1

Andre老师@小象学院

BasicTokenizer类 进行unicode转换、标点符号分割、小写转换、中文字符分割、去除重音符号等操作,最后返回的是关于词的数组 WordpieceTokenizer类 WordpieceTokenizer的目的是将合成词分解成类似词根一样的词片。 例如[“unaffable”]切分为[“un”, “##aff”, “##able”]}这么做的目的是防止因为词的过于生僻没有被收录进词典最后只能以[UNK]代替的局面,因为英语当中这样的合成词非常多,词典不可能全部收录。

2021-11-23 17:26:19

- 没有更多了 -