대규모 언어 모델(LLM)의 혁신 속도는 놀라울 정도입니다. 그러나 기업이 이러한 모델을 프로덕션 환경으로 이전함에 따라 초점이 전환되고 있습니다. 더 이상 단순한 규모 확장이 아닌, 토큰당 효율성과 스마트하고 목표 지향적인 컴퓨팅 활용이 중요해지고 있습니다.

즉, 모든 프롬프트에 동일한 수준의 추론이 필요한 것은 아닙니다. 사용자가 "노스캐롤라이나주의 주도는 어디인가요?"와 같은 간단한 요청을 할 경우, 예를 들어 재무 예측에 필요한 것과 같은 여러 단계의 추론 과정은 불필요합니다. 조직이 모든 요청에 대해 강력한 추론 모델을 사용하면 비용이 많이 들고 비효율적입니다. 이러한 딜레마를 우리는 추론 예산 구현의 과제라고 부르며, Red Hat은 각 태스크에 가장 적합한 모델을 지능적으로 선택하여 비용과 효율성을 최적화하는 동시에 사용 편의성을 극대화하는 오픈소스 프로젝트인 vLLM Semantic Router를 개발했습니다.

vLLM Semantic Router란?

vLLM Semantic Router는 고효율 vLLM 추론 엔진을 위한 지능형 비용 인식 요청 라우팅 계층 역할을 하는 오픈소스 시스템입니다. LLM 추론 파이프라인의 의사 결정자라고 생각해 보세요. vLLM Semantic Router는 다음을 통한 동적 의미 인식 라우팅으로 효율성 문제를 해결합니다.

  • ModernBERT 또는 기타 사전 학습된 모델과 같은 경량 분류기를 활용하여 쿼리의 의도와 복잡성 분석
  • 간단한 쿼리를 더 작고 빠른 LLM 또는 비추리 모델로 라우팅하여 컴퓨팅 리소스 절약
  • 심층 분석이 필요한 복잡한 요청을 더 강력하고 추론 기능이 강화된 모델로 전달

vLLM Semantic Router의 목적은 생성되는 모든 토큰이 가치를 더하도록 하는 것입니다. Rust로 작성되고 Hugging Face의 Candle 프레임워크를 사용하는 라우터는 짧은 대기 시간과 높은 동시성을 제공하며 고성능을 위해 설계되었습니다.

vLLM Semantic Router는 오픈소스의 강력한 기능을 통해 효율적인 모델 스위칭과 의미 인식 라우팅을 제공하여 모델 유연성을 증진합니다. 이를 통해 개발자는 태스크에 적합한 LLM 또는 추론 모드를 자동으로 선택하여 효율성과 정확성을 세부적으로 제어할 수 있습니다. 이와 더불어 중요한 점은, 프로젝트가 Envoy ext_proc 플러그인을 사용하여 쿠버네티스와의 기본 통합을 통해 클라우드 네이티브 배포를 지원한다는 것입니다. 즉, vLLM Semantic Router는 Red Hat OpenShift를 사용하여 하이브리드 클라우드 환경 전반에서 배포, 관리, 확장되도록 설계되어 모든 클라우드 전반에서 클라우드 네이티브 모범 사례를 완벽하게 지원합니다.

vLLM Semantic Router와 llm-d

실제로 vLLM Semantic Router는 많은 배포 활용 사례를 찾을 수 있습니다. 엔터프라이즈 사용자는 클러스터 전반의 llm-d 배포에 동일한 라우팅 개념을 적용할 수 있습니다. 한 팀은 프로덕션 H100 클러스터에서 실행되는 GPT-OSS-120B 모델을 사용할 수 있고, 다른 팀은 A100 하드웨어에서 실험용으로 동일한 모델에 액세스할 수 있습니다. llm-d에 통합된 vLLM Semantic Router의 분류 기능을 사용하면 요청이 단일 인그레스 지점을 공유하며 올바른 인프라 엔드포인트로 지능적으로 라우팅될 수 있습니다. 이를 통해 사용자, 정책 및 가용 컴퓨팅 리소스를 기반으로 최적의 성능을 보장할 수 있습니다.

vLLM Semantic Router는 llm-d와 함께 배포될 때 시맨틱 캐싱과 탈옥(jailbreak) 감지 기능을 지원합니다. 시맨틱 캐싱을 통해 반복되거나 유사한 프롬프트는 기존 추론 결과를 재사용할 수 있으므로 중복 쿼리로 인한 컴퓨팅 오버헤드를 줄일 수 있으며, 특히 반복되는 질문 패턴이나 채팅 세션이 있는 프로덕션 환경에서 유용합니다. 탈옥 감지 기능은 llm-d의 분산 라우팅 계층을 활용하여 규정을 준수하지 않는 요청이 추론 엔진에 도달하기 전에 플래그를 지정합니다. 이러한 조합은 기업에 더욱 안전하고 효율적이며 정책을 인식하는 추론 워크플로우를 제공합니다.

엔터프라이즈와 커뮤니티의 가치

기업의 경우 vLLM 시맨틱 라우터를 사용하면 비용과 정확성 사이의 장단점을 해결하여 측정 가능한 비즈니스 가치로 직접 전환할 수 있습니다. 프로젝트 벤치마크는 MMLU-Pro 및 Qwen3 30B 모델을 사용한 자동 추론 모드 조정을 통해 효율성을 크게 향상시켰습니다. 복잡한 태스크에 대한 정확성은 10.2% 개선되었고 대기 시간과 토큰 사용량은 각각 47.1%와 48.5% 감소했습니다. 이러한 결과는 vLLM Semantic Router가 전반적인 운영 비용을 낮추는 데 도움이 될 뿐만 아니라 추론 모델의 풋프린트를 관리하여 더 지속 가능한 에너지 사용으로 이어질 수 있음을 나타냅니다.

vLLM Semantic Router를 개발하기 시작했을 때 저는 이러한 종류의 추론 기반 라우팅이 주로 폐쇄형 독점 시스템에 국한된다는 것을 알고 있었습니다. Red Hat의 오픈소스 DNA는 이 중요한 기능을 오픈소스 커뮤니티에 제공하여 모든 사람이 액세스하고 투명하게 이용할 수 있도록 하는 것을 요구했습니다. 즉각적인 반응을 통해 그 필요성이 확인되었습니다. 이 프로젝트는 공개된 지 2개월 만에 GitHub에서 2,000개 이상의 스타(star)와 300개에 가까운 포크(fork)를 기록하며 커뮤니티의 강력한 추진력을 빠르게 얻었습니다. 오픈소스 커뮤니티의 지원을 통해 저는 AI 인프라의 미래, 즉 개방형 환경에서 협업을 통해 구축되는 방식에 대해 이미 알고 있던 사실을 확인했습니다.

Red Hat은 AI 시대에 대한 명확한 비전을 가지고 있습니다. 모델, 기본 가속기 또는 배포 환경에 관계없이 vLLM은 새로운 하이브리드 클라우드 전반에서 추론을 위한 최종 오픈 표준이 될 것이며, vLLM Semantic Router가 이 비전을 실현합니다.

추론의 진화는 ‘실행할 수 있을까?’에서 ‘어떻게 하면 더 잘 실행할 수 있을까?’로 이동하고 있습니다. vLLM Semantic Router는 이러한 요구를 충족하는 정교한 작업 인지형 컴퓨팅 계층을 제공해, 기업이 효율적이고 책임감 있으며 엔터프라이즈 환경에 적합한 AI를 구축하는 데 필요한 오픈소스 도구를 제공합니다. GitHub에서 프로젝트 웹사이트와 vLLM 시맨틱 라우터 커뮤니티를 확인하여 LLM 추론의 다음 단계를 계획하는 데 참여하세요.


저자 소개

Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래