前言
完成这一章做得很棒!
在深入研究了令牌化器之后,你应该:
- 能够使用旧的令牌化器作为模板来训练新的令牌化器。
- 了解如何使用偏移量来将令牌的位置映射到它们在原始文本中的范围。
- 了解 BPE、WordPiece 和 Unigram 之间的区别。
- 能够混合和匹配🤗 Tokenizers库提供的模块,构建自己的分词器。
- 在🤗 Transformers 库中能够使用那个分词器。
src link: https://huggingface.co/learn/llm-course/chapter6/9
Operating System: Ubuntu 22.04.4 LTS
参考文档
结语
第三百三十篇博文写完,开心!!!!
今天,也是充满希望的一天。