前言
字节对编码(Byte-Pair Encoding,BPE)最初是作为一种文本压缩算法开发的,然后被OpenAI用于在预训练GPT模型时进行分词。它被许多Transformer模型使用,包括GPT、GPT-2、RoBERTa、BART和DeBERTa。
💡 本节深入介绍了BPE,甚至展示了一个完整的实现。如果你只想了解分词算法的概览,可以跳到结尾部分。
src link: https://huggingface.co/learn/nlp-course/chapter6/5
Operating System: Ubuntu 22.04.4 LTS
参考文档
训练算法
结语
第二百六十六篇博文写完,开心!!!!
今天,也是充满希望的一天。