前言
EleutherAI YaRN论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:YaRN: Efficient Context Window Extension of Large Language Models
发表年份:2023
论文地址:https://arxiv.org/abs/2309.00071
pdf 地址:https://arxiv.org/pdf/2309.00071
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00034-YaRN.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00034-YaRN.pdf
内容
摘要
旋转位置嵌入(RoPE)已被证明能有效地在基于Transformer的语言模型中编码位置信息。然而,这些模型无法在其训练序列长度之外进行泛化。我们提出YaRN(又一种RoPE扩展方法),这是一种计算高效的方法,可以扩展这些模型的上下文窗口,其所需的令牌数量比之前的方法减少了10倍,训练步骤减少了2.5倍。使用YaRN,我们证明LLaMA模型可以有效地利用并外推到比其原始预训练所允许长度,并且在上下文窗口扩展方面也超过了之前的最先进水平。
此外,我们证明 YaRN 能够在微调数据集的有限上下文之外进行外推。使用 YaRN 微调的模型已在 https://github.com/jquesnelle/yarn 公开并在线重现,最大上下文长度可达 128k。
结语
第三百四十二篇博文写完,开心!!!!
今天,也是充满希望的一天。