什么是 vLLM?
vLLM 是一种推理服务器,通过更高效地利用内存存储和图形处理单元(GPU)来加速大语言模型(LLM)中的生成式 AI 推理。
更高效地利用 GPU 能够让大语言模型在大规模场景下更快完成计算。这在对实时性要求较高的场景中尤为重要,例如聊天机器人或多模态工作流。
本文将聚焦三个真实标杆案例,拆解知名企业如何成功落地 vLLM。
为什么 vLLM 对 AI 推理至关重要?
在推理过程中,大语言模型会依靠键值在短时间内完成大量计算。
大语言模型利用键值为词元(词语或短语)赋予数值,从而理解语言并完成计算。因此,每个词元(键)都对应一个数值(值),使大语言模型能够计算出响应结果。
AI 推理的两个主要阶段都需要用到键值:
- 预填充阶段:模型处理输入提示词的过程。每个输入词元都会生成对应的键和值,并存入键值(KV)缓存,这相当于模型的短期记忆。
- 解码阶段:模型生成新词元的过程。该阶段会复用已有的 KV 缓存来计算响应内容的键值。
大语言模型会将每个已处理词元对应的键值存储在 KV 缓存中。随着提示词长度和生成内容不断增加,缓存规模也会随之扩大,因此会占用大量的大语言模型内存空间。传统大语言模型的内存管理系统无法以最高效的方式梳理计算或利用内存,导致大语言模型运行变慢。
vLLM 采用了一种专为推理阶段 KV 缓存使用模式设计的高效内存管理技术。它在读取缓存数据时能够识别重复的键值,减少内存碎片并避免不必要的计算开销,从而提升 GPU 内存使用率,同时加快大语言模型的推理速度。
实施 AI 技术的 4 个关键注意事项
vLLM 如何减少 GPU 存储需求?
vLLM 通过采用不同的技术和方法来减少存储需求并加快推理过程:
- 连续批处理:大语言模型即便尚未完成对前一个词元的运算,也能开始处理下一批词元的推理过程(vLLM 具备多任务处理能力)。
- PagedAttention:这项突破性技术会利用 KV 缓存来存储先前处理的词元,并依靠其内存来节省 GPU 存储空间。
- 推测解码:利用体量更小、速度更快的模型来预测待生成的词元,以此提高预填充阶段的速度和效率。
- 量化:将较大的模型参数压缩为较小格式的过程,可在不影响准确性的前提下减少存储需求。定制模型时有多种量化方法可供选择。
减少需要处理的词元数量,或将一次响应的生成时间缩短几秒,乍看之下也许微不足道。但当企业将这种内存优化技术应用于成千上万的 AI 工作负载、GPU 和推理服务器计算时,便能节省大量时间、成本和资源。
对于希望在企业层面实现 AI 规模化的企业组织而言,这无疑是一项颠覆性技术。
企业为何选择使用 vLLM?
许多企业组织正将 AI 推理应用于高吞吐量、高波动性的工作负载。但是,要大规模持续部署大语言模型,需要大量的计算能力和资源以及专业的运维技能。
vLLM 能够更高效地利用支持企业级 AI 推理所需的硬件资源,从而有效克服这些挑战。这就是 vLLM 格外吸引那些需要兼顾速度、灵活性和可控性的行业的原因。
作为一种开源解决方案,vLLM 能够让企业实现以下目标:
- 自主拥有并管理 GPU 资源。
- 完全掌控自身数据。
- 在新模型发布的第一时间进行试用。
这种自由度可降低单个词元的推理成本,同时减少隐私方面的顾虑。
vLLM 可部署于多种硬件平台,包括 NVIDIA 和 AMD 的 GPU、Google TPU、Intel Gaudi 和 AWS Neuron。此外,vLLM 不受特定硬件的限制,这意味着它可以在云端、数据中心或边缘环境中运行。
vLLM 的企业级用例
从招聘平台到在线游戏,推理服务的规模化部署往往会迅速变得复杂。
以下案例展示了多家企业如何利用开源项目 vLLM 应对这一挑战。这些企业并非红帽的客户,但依然受益于更广泛的 vLLM 社区及其所产出的技术成果。
Roblox 是如何使用 vLLM 的?
Roblox 是一个在线游戏平台,在全球拥有数百万用户。该平台的用户既可以自主创作游戏,也可以畅玩他人制作的游戏。
凭借其最新推出的功能 Assistant(一种协助创作内容的 AI 聊天机器人),平台每周处理的词元数量已突破 10 亿大关。实时 AI 聊天翻译及语音安全模型等其他功能也进一步增加了推理的复杂性。这种支持数百万次用户交互的多模态 AI 应用,带来了海量的词元处理需求,对推理资源提出了更高要求。
为了应对不断增长的计算压力,Roblox 采用 vLLM 作为其主要的推理引擎。Roblox 尤其依赖 vLLM 在语言任务中的推测解码能力,以高效服务全球用户。自采用 vLLM 以来,Roblox 在每周处理 40 亿词元的负载下,推理延迟降低了 50%。
vLLM 使 Roblox 能够随着平台的持续发展扩大规模并满足用户需求。选择 vLLM,不仅因其卓越的性能,也源于 Roblox 对开源技术生态的坚定支持。
观看 Roblox 在红帽 vLLM 技术交流直播(vLLM Office Hours)中分享他们如何使用 vLLM。
领英是如何使用 vLLM 的?
为了支撑其庞大且活跃用户群体对生成式 AI 的多样化需求,领英(LinkedIn)采用了开源推理引擎 vLLM。
作为全球最大的职业社交网站之一,领英拥有遍布 200 多个国家/地区的超过 10 亿名会员。如今,vLLM 已助力 LinkedIn 运行 50 多个生成式 AI 应用场景,其中最具代表性的是 LinkedIn Hiring Assistant(招聘助手)。
借助复杂的分类计算,该工具能够对应聘者的各项资质进行筛选,例如工作年限、技能水平以及过往的任职经历,帮助招聘人员更精准地匹配候选人与职位。
然而,这类深度筛选任务计算量巨大(每位候选人平均需要处理约 1,000 个词元),而单个职位的应聘者池可能会包含数千名候选人。
值得注意的是,超过 50% 的应聘申请存在前缀词元相同的情况(原因是应聘者的资质存在相似性)。这一特性恰好契合 vLLM 的两大核心技术优势:PagedAttention 技术和连续批处理技术。这两项技术均可降低延迟、优先保障高吞吐量并减轻 GPU 存储压力。
单个输出词元的生成时间(TPOT)反映了模型生成每个独立词元所需的平均时间。 截至目前,vLLM 已帮助领英将其 TPOT 缩短 7%。
亚马逊是如何使用 vLLM 的?
亚马逊(Amazon)的生成式 AI 购物助手 Rufus 可通过减轻决策疲劳来提升客户体验。据报道,Rufus 在 2025 年已服务了 2.5 亿客户,而且这一数字仍在持续增长。
随着使用 Rufus 的客户数量激增,推理负载的复杂性也迅速上升。亚马逊发现,没有任何单一芯片或实例具有足够的内存来确保 Rufus 的顺畅运行。
为此,亚马逊将重点放在构建可扩展的多节点推理能力上,在保障模型准确度的同时,实现更快的响应速度和更低的延迟。他们通过一套多节点分布式架构方案,并深度集成 vLLM,显著优化了推理性能。
其中,借助 vLLM 的连续批处理技术,多节点架构能够智能调度推理进程,确保词元量不会影响延迟或性能。
借助 vLLM 提升大语言模型的效率和吞吐能力,亚马逊得以灵活扩展 Rufus 等生成式 AI 项目,并支持其随着用户的需求不断发展和升级。
vLLM 如何重塑推理的未来?
vLLM 正持续成为 AI 推理未来发展的核心基石,这得益于其四大关键能力:
- 速度:推理能力不断提升。vLLM 的硬件和模型厂商直接参与项目贡献,持续优化,显著提升推理速度与模型运行效率。
- 社区生态:vLLM 拥有一个庞大的开源社区,且其规模仍在不断扩大。 全球排名前十的大模型厂商——包括 Deepseek、NVIDIA、Meta 和 Google 等纷纷将 vLLM 作为首选推理后端,预先适配并发布针对 vLLM 优化的模型版本,充分认可其在效率上的领先优势。
- 灵活性:vLLM 支持大多数主流 AI 硬件,包括 NVIDIA 和 AMD 的 GPU、Google TPU、Intel Gaudi、AWS Neuron,以及 MetaX、Rebellions 等其他加速器。这种广泛的硬件兼容性,让企业能够充分利用现有基础设施,无需额外投入即可高效部署生成式 AI 应用。
- 零日支持:当 Meta 或 Google 等主流模型开发商发布新模型时,vLLM 可立即为其现有架构提供支持。这意味着 vLLM 能在新模型发布的当天(即时)就提供开箱即用的支持,帮助企业极速部署新模型、缩短上市时间和降低部署成本。
vLLM 还包含 llm-d,这是一个分布式推理框架,可用于在混合云环境中规模化管理大语言模型。
红帽可助您一臂之力
红帽® AI 是一套基于红帽开源理念而构建的 AI 平台套件。 作为 vLLM 最大的商业贡献者之一,我们对 vLLM 的技术原理及其如何赋能自身 AI 平台有着深入的理解。
依托 vLLM 强大的能力,红帽 AI 能够最大化 GPU 利用率,显著缩短响应时间。其内置的模型压缩技术可在不牺牲性能的前提下提升推理效率, 特别适用于混合云环境中对数据安全有更高要求的场景。
红帽 AI 的核心组件是红帽 OpenShift® AI,这是一个可基于 vLLM 来构建、部署和管理 AI 开源模型的平台。红帽 OpenShift AI 不仅融合了 vLLM 的高效能力,还整合了 llm-d 等其他开源社区驱动项目。其中,llm-d 采用模块化架构,提供更精细的控制、更强的一致性,以及更高效的资源调度能力;红帽 OpenShift AI 整合了一系列基础能力,不仅改变了大语言模型在 Kubernetes 上的原生运行方式,也重新定义了企业扩展 AI 工作负载的方法。
红帽的人工智能(AI)
从线上活动到实训产品演示,再到深度技术研究,了解红帽如何运用 AI。