前言vLLM是一个快速且易于使用的LLM推理和服务库。
vLLM速度很快:
最先进的服务吞吐量
使用PagedNote有效管理注意力键和值内存
传入请求的连续批处理
使用CUDA/HIP图快速执行模型
量化:GPTQ、A
2024-12-08