大语言模型 (LLM) 的创新速度惊人,但随着企业将这些模型投入生产,讨论的重点也随之改变。重点不再仅仅关乎原始规模,而是每个令牌的效率以及智能化、有针对性的计算资源利用。
简而言之,并非所有提示都需要相同程度的推理。如果用户有一个简单的请求,例如“北卡罗来纳州的首府是哪里?”,则不需要财务预测所需的多步骤推理过程。如果企业组织对每个请求都使用重量级推理模型,结果将是成本高昂且效率低下。这种困境就是我们所说的实施推理预算挑战。正因如此,红帽开发了 vLLM 语义路由器,这是一个开源项目,可以为每项任务智能选择最佳模型,优化成本和效率,同时最大限度地提高易用性。
什么是 vLLM 语义路由器?
vLLM 语义路由器是一个开源系统,它充当高效 vLLM 推理引擎的智能、成本感知型请求路由层。可以将其视为 LLM 推理管道的决策者。它通过动态的、语义感知的路由来应对效率挑战,具体方式如下:
- 利用轻量级分类器(如 ModernBERT 或其他预训练模型)来分析查询的意图和复杂性。
- 将简单查询路由到更小、更快的 LLM 或非推理模型,以节省计算资源。
- 将需要深度分析的复杂请求引导至功能更强大且支持推理的模型。
vLLM 语义路由器的目的是确保生成的每个令牌都能增加价值。该路由器采用 Rust 编写,并使用 Hugging Face 的 Candle 框架,可提供低延迟和高并发性,并且专为高性能而设计。
借助开源的力量,vLLM 语义路由器通过提供高效的模型切换和语义感知路由来提高模型的灵活性。通过自动为任务选择合适的 LLM 或推理模式,开发人员可以对效率和准确性进行精细控制。同样重要的是,该项目通过使用 Envoy ext_proc 插件与 Kubernetes 原生集成来支持云原生部署。这意味着 vLLM 语义路由器可以在使用红帽 OpenShift 的混合云环境中部署、管理和扩展,全面支持任何云中的云原生最佳实践。
vLLM 语义路由器和 llm-d
在实践中,vLLM 语义路由器有许多部署用例。企业用户可以在跨集群的llm-d部署中应用相同的路由概念:一个团队可能会使用在生产 H100 集群上运行的 GPT-OSS-120B 模型,而另一个团队则在 A100 硬件上访问相同的模型用于实验。借助集成到 llm-d 中的 vLLM 语义路由器的分类功能,请求可以共享单个入口点,并智能地路由到正确的基础架构端点,从而确保根据用户、策略和可用计算资源实现最佳性能。
vLLM 语义路由器在与 llm-d 一起部署时支持语义缓存和越狱检测。通过语义缓存,重复或类似的提示可以复用现有的推理结果,从而减少冗余查询的计算开销,这在具有重复问题模式或聊天会话的生产环境中特别有用。越狱检测功能利用 llm-d 的分布式路由层,在不合规的请求到达推理引擎之前对其进行标记。这种组合为企业提供了更安全、更高效且具有策略感知能力的推理工作流。
企业和社区价值
对于企业而言,使用 vLLM 语义路由器有助于解决成本与准确性之间的权衡问题,从而直接转化为可衡量的商业价值。该项目的基准测试(使用 MMLU-Pro 和 Qwen3 30B 模型进行自动推理模式调整)显著提高了效率。复杂任务的准确率提高了 10.2%,延迟和令牌使用率分别下降了 47.1% 和 48.5%。这些结果表明,vLLM 语义路由器不仅有助于降低总体运维成本,还有助于管理推理模型的占用空间,从而实现更可持续的能源使用。
当我开始开发 vLLM 语义路由器时,我知道这种推理感知路由在很大程度上局限于封闭的专有系统。红帽的开源基因要求我们将这一关键功能引入开源社区,使其对每个人都可用且透明。社区的快速响应证实了这一需求。该项目迅速获得了强大的社区支持,自推出以来的两个月内,在 GitHub 上获得了 2000 多个 Star 和近 300 个 Fork。开源社区的支持证实了我对未来 AI 基础架构构建方式的认知:开放协作。
红帽对 AI 时代有着清晰的愿景:无论是模型、底层加速器还是部署环境,vLLM 都注定会成为跨新型混合云进行推理的权威开放标准,而 vLLM 语义路由器正是实现这一愿景的关键。
推理的演变正在从“我们能否运行它?”转变为“我们如何才能更好地运行它?” vLLM 语义路由器提供了一个复杂的、任务感知的计算层,为企业提供了构建高效、负责任且可用于企业的 AI 所需的开源工具。请访问项目网站和GitHub上的 vLLM 语义路由器社区,加入我们,一同规划 LLM 推理的下一阶段。
关于作者
Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.