前言
Microsoft DeepSpeed-Ulysses论文的学习笔记。
Operating System: Ubuntu 22.04.4 LTS
信息
论文题目:DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models
发表年份:2023
论文地址:https://arxiv.org/abs/2309.14509
pdf 地址:https://arxiv.org/pdf/2309.14509
个人学习笔记:
- https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00016-DeepSpeed-Ulysses.pdf
- https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00016-DeepSpeed-Ulysses.pdf
内容
摘要
典型的基于Transform的大语言模型(LLM)中的计算可以通过批量大小、隐藏维度、层数和序列长度来表征。到目前为止,加速LLM训练的系统工作都集中在前三个维度上:批量大小的数据并行性、隐藏大小的张量并行性和模型深度或层的流水线并行性。这些广泛研究的并行性形式并没有针对长序列Transform模型或对其进行优化。鉴于长序列LLM的实际应用需求,序列并行性再次受到关注。然而,序列并行性方面的现有工作受到内存通信效率的限制,限制了它们对长序列大型模型的可扩展性。
在这项工作中,我们引入了DeepSpeed-Ulysses,这是一种新颖、可移植和有效的方法论,用于实现具有极长序列长度的高效和可扩展的LLM训练。DeepSpeed-Ulysses的核心沿着序列维度划分输入数据,并采用有效的所有对所有集体通信进行注意力计算。理论通信分析表明,当其他方法随着序列长度的增加而产生通信开销时,DeepSpeed-Ulysses在序列长度和计算设备成比例增加时保持恒定的通信量。此外,实验评估表明,DeepSpeed-Ulysses的训练速度比现有方法SOTA基线快2.5倍,序列长度长4倍。
结语
第三百二十篇博文写完,开心!!!!
今天,也是充满希望的一天。