00318 HybridFlow (论文学习笔记)

深度学习大语言模型

Paper

发布日期: 2025-04-04

更新日期: 2025-04-04

前言

ByteDance HybridFlow论文的学习笔记。

Operating System: Ubuntu 22.04.4 LTS

信息

论文题目：HybridFlow: A Flexible and Efficient RLHF Framework

发表年份：2024

论文地址：https://arxiv.org/abs/2409.19256

pdf 地址：https://arxiv.org/pdf/2409.19256

个人学习笔记：

内容

摘要

来自人类反馈的强化学习（RLHF）广泛用于大型语言模型（LLM）对齐。传统的RL可以建模为数据流，其中每个节点代表神经网络（NN）的计算，每个边缘表示NN之间的数据依赖关系。RLHF通过将每个节点扩展为分布式LLM训练或生成程序，并将每个边缘扩展为多对多多路广播，从而使数据流复杂化。传统的RL框架使用单个控制器执行数据流，以指示节点内计算和节点间通信，这在RLHF中可能效率低下，因为分布式节点内计算的控制调度开销很大。
现有的RLHF系统采用多控制器范式，由于嵌套分布式计算和数据通信，该范式可能不灵活。我们提出了HybridFlow，它以混合方式结合了单控制器和多控制器范式，以实现RLHF数据流的灵活表示和高效执行。我们精心设计了一组分层API，将复杂的RLHF数据流中的计算和数据依赖关系解耦和封装，允许高效的操作编排来实现RLHF算法，并将计算灵活映射到各种设备上。我们进一步设计了3D-HybridEngine，用于在训练和生成阶段之间进行高效的参与者模型重新划分，具有零内存冗余并显着降低了通信开销。
我们的实验结果表明，与最先进的基线相比，使用HybridFlow运行各种RLHF算法时，吞吐量提高了1.53×~20.57×。
HybridFlow源代码将在https://github.com/volcengine/verl