00365 vllm (论文学习笔记)


前言

University of California, Berkeley vllm论文的学习笔记。

信息

论文题目:Efficient Memory Management for Large Language Model Serving with PagedAttention

发表年份:2023

论文地址:https://arxiv.org/abs/2309.06180

pdf 地址:https://arxiv.org/pdf/2309.06180

个人学习笔记:

  1. https://github.com/yanfeng98/paper-is-all-you-need/blob/main/papers/00086-vllm.pdf
  2. https://cdn.jsdelivr.net/gh/yanfeng98/paper-is-all-you-need/papers/00086-vllm.pdf

内容

摘要

为大型语言模型(LLM)提供高吞吐量服务需要一次处理足够多的请求。但是,现有系统存在困难,因为每个请求的键值缓存(KV缓存)内存巨大,并且会动态增长和缩小。如果不当管理,这些内存可能会因碎片化和重复复制而浪费严重,从而限制批处理大小。 为了解决这个问题,我们提出了一种分页注意(PagedAttention)算法,该算法受到操作系统中经典虚拟内存和分页技术的启发。在此基础上,我们构建了vLLM,一个LLM服务系统,该系统实现了(1)接近零浪费的KV缓存内存和(2)在请求内外灵活共享KV缓存,进一步减少内存使用。我们的评估表明,与FasterTransformer和Orca等先进系统相比,vLLM在相同延迟水平下将吞吐量提高了2-4倍。在较长序列、较大模型和更复杂的解码算法情况下,改进效果更加明显。 vLLM的源代码可在 https://github.com/vllm-project/vllm 获取。

结语

第三百六十五篇博文写完,开心!!!!

今天,也是充满希望的一天。


文章作者: LuYF-Lemon-love
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 LuYF-Lemon-love !
  目录