00316 NLP Course - Building a tokenizer, block by block


前言

正如我们在前面的部分所看到的,分词包括几个步骤:

  1. 标准化(对文本进行必要的清理,例如删除空格或重音、Unicode 标准化等)
  2. 预分词(将输入分解为单词)
  3. 通过模型运行输入(使用预分词的单词生成一系列标记)
  4. 后处理(添加分词器的特殊标记,生成注意力掩码和标记类型 ID)

src link: https://huggingface.co/learn/nlp-course/chapter6/8

Operating System: Ubuntu 22.04.4 LTS

参考文档

  1. NLP Course - Building a tokenizer, block by block

训练算法

结语

第三百一十六篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录