00342 YaRN (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-06-01

更新日期: 2025-06-01

前言

EleutherAI YaRN论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：YaRN: Efficient Context Window Extension of Large Language Models

发表年份：2023

论文地址：https://arxiv.org/abs/2309.00071

pdf 地址：https://arxiv.org/pdf/2309.00071

个人学习笔记：

内容

摘要

旋转位置嵌入（RoPE）已被证明能有效地在基于Transformer的语言模型中编码位置信息。然而，这些模型无法在其训练序列长度之外进行泛化。我们提出YaRN（又一种RoPE扩展方法），这是一种计算高效的方法，可以扩展这些模型的上下文窗口，其所需的令牌数量比之前的方法减少了10倍，训练步骤减少了2.5倍。使用YaRN，我们证明LLaMA模型可以有效地利用并外推到比其原始预训练所允许长度，并且在上下文窗口扩展方面也超过了之前的最先进水平。
此外，我们证明 YaRN 能够在微调数据集的有限上下文之外进行外推。使用 YaRN 微调的模型已在 https://github.com/jquesnelle/yarn 公开并在线重现，最大上下文长度可达 128k。