00342 YaRN (论文学习笔记)


前言

EleutherAI YaRN论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目:YaRN: Efficient Context Window Extension of Large Language Models

发表年份:2023

论文地址:https://arxiv.org/abs/2309.00071

pdf 地址:https://arxiv.org/pdf/2309.00071

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00034-YaRN.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00034-YaRN.pdf

内容

摘要

旋转位置嵌入(RoPE)已被证明能有效地在基于Transformer的语言模型中编码位置信息。然而,这些模型无法在其训练序列长度之外进行泛化。我们提出YaRN(又一种RoPE扩展方法),这是一种计算高效的方法,可以扩展这些模型的上下文窗口,其所需的令牌数量比之前的方法减少了10倍,训练步骤减少了2.5倍。使用YaRN,我们证明LLaMA模型可以有效地利用并外推到比其原始预训练所允许长度,并且在上下文窗口扩展方面也超过了之前的最先进水平。
此外,我们证明 YaRN 能够在微调数据集的有限上下文之外进行外推。使用 YaRN 微调的模型已在 https://github.com/jquesnelle/yarn 公开并在线重现,最大上下文长度可达 128k。

结语

第三百四十二篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录