前言
正如我们在前面的部分所看到的,分词包括几个步骤:
- 标准化(对文本进行必要的清理,例如删除空格或重音、Unicode 标准化等)
- 预分词(将输入分解为单词)
- 通过模型运行输入(使用预分词的单词生成一系列标记)
- 后处理(添加分词器的特殊标记,生成注意力掩码和标记类型 ID)
src link: https://huggingface.co/learn/nlp-course/chapter6/8
Operating System: Ubuntu 22.04.4 LTS
参考文档
训练算法
结语
第三百一十六篇博文写完,开心!!!!
今天,也是充满希望的一天。