vLLM으로 AI 추론 가속화: 세 가지 기업 활용 사례

URL 복사

vLLM은 메모리 스토리지 및 그래픽 처리 장치(GPU)를 더 효율적으로 사용하여 대규모 언어 모델(LLM)생성형 AI 추론 속도를 높이는 추론 서버입니다. 

GPU를 더 효율적으로 활용하면 LLM이 계산을 더 빠르게 그리고 대규모로 수행하는 데 도움이 됩니다. 이러한 장점은 챗봇 또는 멀티모달 워크플로우 같은 실시간 애플리케이션이 필요한 경우 그 중요성이 더 커집니다. 

이 문서는 잘 알려진 기업들이 vLLM을 성공적으로 활용 중인 실제 사례 세 가지를 소개합니다.

vLLM 심층 개요 보기

하이브리드 클라우드의 AI 모델을 위한 개방형 플랫폼

추론 과정에서 LLM은 짧은 시간 내에 많은 계산을 수행하기 위해 키 값을 활용합니다. 

LLM은 언어를 이해하고 답을 계산하기 위해 키 값을 사용하여 토큰(용어 또는 문구)에 숫자 값을 할당합니다. 모든 토큰(키)은 숫자(값)와 연결되며, LLM이 이 값을 사용하여 응답을 계산할 수 있습니다. 

AI 추론에서 키 값은 다음과 같은 두 개의 주요 단계에 사용됩니다. 

  • 프리필: 모델이 입력 프롬프트를 처리하는 것을 말합니다. 각 토큰의 키 값은 키 값(KV) 캐시를 생성하고, 이 캐시가 모델의 단기 메모리 역할을 합니다.
  • 디코드: 모델이 새 토큰을 생성하는 것을 말합니다. 기존 KV 캐시를 사용하여 응답의 키 값을 계산합니다. 

LLM은 처리된 모든 토큰의 키 값을 KV 캐시에 저장합니다. 이 캐시는 프롬프트 길이 및 출력 생성에 따라 커져 LLM 메모리 스토리지를 많이 차지합니다. 기존의 LLM 메모리 관리 시스템은 계산을 체계화하거나 메모리를 가장 효율적인 방식으로 사용하지 않아 LLM의 작동이 느립니다. 

vLLM은 KV 캐시가 추론 중에 어떻게 사용되는지를 파악하는 메모리 관리 기술을 사용합니다. 반복되는 키 값을 식별하는 방식으로 캐시 데이터를 검색하므로 메모리 단편화를 방지하고 LLM의 추가 작업을 줄일 수 있습니다. 따라서 GPU 메모리 사용 효율을 높이고 LLM 추론 속도를 개선합니다. 

AI 확장의 이점에 대해 알아보기 

AI 기술 구현의 4가지 핵심 고려 사항

vLLM은 다양한 기술을 사용하여 스토리지 사용량을 줄이고 추론 속도를 높입니다. 

  • 연속 배치: LLM이 이전 토큰의 계산을 마치지 않은 상태에서도 다음 배치의 토큰에 대해 추론 프로세스를 시작하는 것을 말합니다(vLLM이 멀티태스킹 가능).
  • PagedAttention: KV 캐시를 사용하여 이전 토큰을 기억하고 메모리를 활용해 GPU 스토리지를 절약하는 혁신적인 기술입니다.
  • 추측 디코딩: 더 작고 더 빠른 모델을 사용하여 들어오는 토큰을 예측해 프리필 단계의 속도와 효율성을 높입니다.
  • 양자화: 대규모 모델 파라미터를 더 작은 형식으로 압축하여 정확성을 저해하지 않으면서 스토리지 요구량을 줄이는 프로세스입니다. 모델 커스터마이징을 위한 다양한 양자화 방법이 있습니다.

토큰 처리량이 줄거나 응답 생성 시간이 몇 초 단축되는 것이 별로 중요해 보이지 않을 수도 있습니다. 하지만 기업에서 AI 워크로드, GPU, 추론 서버 계산 전반에 이 메모리 절약 기술을 사용하면 상당한 시간과 비용 및 리소스를 절약할 수 있습니다. 

엔터프라이즈 수준에서 AI를 확장하려는 조직에게는 획기적인 차이입니다. 

분산 추론이 대규모 환경에서 AI 속도를 높이는 방식 알아보기 

기업들은 변수가 많은 대규모 워크로드에 AI 추론을 사용하고 있습니다. 그러나 LLM을 규모에 맞게 일관되게 배포하려면 많은 컴퓨팅 성능, 리소스, 전문적인 운영 기술이 필요합니다. 

vLLM은 기업의 AI 추론을 지원하는 데 필요한 하드웨어를 더 효율적으로 사용하여 이러한 문제를 극복할 수 있습니다. 이러한 이유로 vLLM은 속도 외에도 유연성과 제어 능력이 필요한 산업에 특히 매력적인 옵션입니다. 

오픈소스 솔루션인 vLLM을 통해 기업은 다음을 수행할 수 있습니다. 

  • GPU 소유 및 관리
  • 데이터 제어
  • 새로운 모델이 출시되는 즉시 체험

이 정도로 자유롭게 활용할 수 있으므로, 토큰당 비용이 절감되고 개인정보 보호에 대한 우려가 줄어듭니다. 

vLLM은 NVIDIA 및 AMD GPU, Google TPU, Intel Gaudi, AWS Neuron 등 다양한 하드웨어에 배포할 수 있습니다. 또한 vLLM은 특정 하드웨어에 국한되지 않으므로 클라우드, 데이터센터, 엣지에서도 작동합니다.

vLLM과 Ollama 비교: 각 프레임워크 사용 시점

채용 활동부터 온라인 게임에 이르기까지, 추론 확장은 빠르게 복잡해질 수 있습니다. 

다음 사례는 기업이 오픈소스 프로젝트인 vLLM을 어떻게 사용하고 있는지 보여줍니다. 이들 기업은 Red Hat 고객은 아니지만 폭넓은 vLLM 커뮤니티 및 이 커뮤니티가 만들어 내는 기술을 활용합니다. 

Roblox의 vLLM 사용 방법

Roblox는 전 세계적으로 수백만 명의 사용자를 보유한 온라인 게임 플랫폼입니다. 사용자는 자신만의 게임 경험을 만들 수 있으며 다른 사용자가 만든 게임을 플레이할 수도 있습니다. 

최신 기능인 어시스턴트는 콘텐츠 제작을 돕는 AI 챗봇으로, 토큰 처리량을 주당 10억 개 이상으로 늘렸습니다. 실시간 AI 채팅 번역 및 음성 안전 모델 같은 추가 기능도 추론 복잡성을 높였습니다. 이러한 멀티 모달리티와 수백만에 달하는 사용자 상호작용이 결합하여 처리할 토큰이 더 늘어남에 따라 추론에 더 많은 리소스가 요구됩니다. 

증가하는 처리 요구량을 해결하기 위해 Roblox는 기본 추론 엔진으로 vLLM을 채택했습니다. Roblox는 특히 언어 태스크에 vLLM의 추측 디코딩 기능을 사용하여 글로벌 고객 기반에 서비스합니다. Roblox는 vLLM을 도입한 이후 주당 40억 토큰을 처리하는 데 걸리는 대기 시간을 50% 단축했습니다. 

vLLM 덕분에 Roblox는 플랫폼이 지속적으로 성장함에 따라 확장하고 사용자 수요를 충족할 수 있습니다. Roblox는 오픈소스 기술을 지지하는 의지와 일치하기 때문에 vLLM을 선택했습니다. 

Roblox가 vLLM을 사용하는 방식을 분석한 내용을 Red Hat의 vLLM 오피스 아워에서 직접 들어 보세요. 

Roblox와 vLLM에 대해 자세히 알아보기 

LinkedIn의 vLLM 사용 방법

LinkedIn은 대규모 활성 사용자의 요구를 충족하는 다양한 생성형 AI 활용 사례를 지원하기 위해 vLLM을 채택했습니다. 

세계 최대 규모의 비즈니스 및 고용 네트워킹 사이트 중 하나인 LinkedIn은 200개국에 걸쳐 10억 명이 넘는 회원을 보유하고 있습니다. LinkedIn은 vLLM을 통해 LinkedIn Hiring Assistant 등 50개가 넘는 생성형 AI 활용 사례를 지원할 수 있습니다. 

LinkedIn Hiring Assistant는 복잡한 분류 계산을 사용하여 경력 기간, 기술, 이전 직장과 같은 지원자 자격 사항을 필터링합니다. 이를 통해 채용 담당자는 지원자를 가장 적합한 직무에 매칭할 수 있습니다. 

하지만 이렇게 광범위한 분류를 처리하는 데는 많은 토큰이 필요하고(후보자 한 명당 평균 1,000개), 후보자 풀에는 후보자 수천 명이 포함될 수 있습니다. 

지원서 50% 이상이 접두사 토큰을 공유합니다(자격 사항이 유사함). 따라서 LinkedIn Hiring Assistant는 vLLM의 PagedAttention 기술 및 연속 배치 기능을 적용하기 아주 적합한 활용 사례입니다. 이 기술과 기능은 대기 시간을 단축하고, 높은 처리량을 우선시하고, GPU 스토리지에 가해지는 부담을 덜어줍니다. 

출력 토큰당 시간(TPOT)은 모델이 각 개별 토큰을 생성하는 데 평균적으로 걸리는 시간을 반영합니다. 지금까지 LinkedIn은 vLLM을 통해 TPOT를 7% 개선했습니다. 

LinkedIn과 vLLM에 대해 자세히 알아보기 

Amazon의 vLLM 사용 방법

Rufus는 Amazon의 생성형 AI 쇼핑 도우미로, 결정 피로를 줄여 고객 경험을 향상하는 것을 목표로 합니다. Rufus는 2025년에 2억 5,000만 명의 고객에게 서비스했으며, 이 숫자는 계속 늘어나고 있습니다. 

많은 사용자가 생성형 AI 쇼핑 도우미를 사용하면서, 추론 복잡성이 높아졌습니다. Amazon은 단일 칩 또는 인스턴스로는 Rufus의 원활한 실행을 지원하기에 역부족이라는 것을 인식했습니다. 

Amazon은 더 높은 속도와 더 짧은 대기 시간으로 정확성을 유지하는 확장형 멀티노드 추론 기능을 최우선으로 했습니다. vLLM과 통합된 멀티노드 아키텍처 솔루션을 결합하여 더 원활하고 더 빠른 추론을 구현했습니다. 

멀티노드 아키텍처는 vLLM의 연속 배치 기술을 활용하여 토큰 처리량으로 인한 대기 시간 또는 성능의 영향 없이 추론 처리 일정을 지능적으로 스케줄링할 수 있었습니다. 

Amazon은 vLLM을 사용하여 자사 LLM의 효율성과 처리량을 높임으로써 고객 증가와 함께 규모가 커지고 진화하는 Rufus 같은 생성형 AI 프로젝트를 확장할 수 있습니다.

Amazon과 vLLM에 대해 자세히 알아보기 

vLLM은 핵심 기능 덕분에 계속해서 AI 추론의 미래를 뒷받침하는 기반이 될 것입니다. 

  • 속도: 추론 기능은 끊임없이 개선되고 있습니다. vLLM의 하드웨어 및 모델 제공업체는 속도와 모델 효율성을 개선하는 프로젝트에 직접적으로 기여합니다.
  • 커뮤니티: vLLM은 계속 성장하고 있는 대규모 오픈소스 커뮤니티가 있습니다. 모델에 가장 많이 기여하는 10개 기업(Deepseek, NVIDIA, Meta, Google 등)이 vLLM의 효율성 때문에 vLLM용으로 사전 구축된 모델을 만들고 있습니다.
  • 유연성: vLLM은 NVIDIA 및 AMD GPU, Google TPU, Intel Gaudi, AWS Neuron 및 기타 가속기(MetaX, Rebellions등)를 포함한 대부분의 AI 하드웨어에 배포할 수 있습니다. 다양한 하드웨어를 지원하기 때문에 기업들은 필요에 따라 유연하게 활용하여 기존에 보유한 리소스로 성과를 낼 수 있습니다.
  • Day 0 지원: Meta나 Google처럼 인기 있는 모델 개발사들이 새 모델을 출시하면, vLLM은 이들 회사 모델의 기존 아키텍처에 이미 맞춰져 있기 때문에 새로운 모델에도 즉시 지원을 제공할 수 있습니다. vLLM은 모델 배포를 가속화하고 비용을 절감하려는 기업을 위한, 접근성 높고 즉시 사용 가능한 솔루션입니다. 

vLLM은 분산 추론 프레임워크인 llm-d도 포함하고 있어 하이브리드 클라우드에서 대규모로 LLM을 관리할 수 있도록 지원합니다.

GitHub에서 vLLM 커뮤니티 살펴보기

Red Hat® AI는 오픈소스를 지지하는 Red Hat의 의지를 바탕으로 구축한 AI 플랫폼 제품군입니다. Red Hat은 vLLM의 최대 상업적 기여자 중 하나로서 vLLM 기술 및 이 기술이 Red Hat의 AI 플랫폼을 지원하는 방식을 깊이 있게 이해하고 있습니다.

vLLM에 기반한 Red Hat AI는 GPU 사용을 극대화하고 더 빠른 응답 시간을 지원합니다. 모델 압축 기능은 성능을 저해하지 않으면서 효율성을 높입니다. 이런 장점은 하이브리드 환경에서 데이터에 추가적인 보안 계층이 요구되는 활용 사례에서 유용합니다. 

Red Hat AI가 우리 조직을 어떻게 지원할 수 있는지 자세히 알아보기 

Red Hat AI에는 vLLM을 활용해 AI 오픈소스 모델을 구축, 배포 및 관리할 수 있는 플랫폼인 Red Hat OpenShift® AI가 포함되어 있습니다. Red Hat OpenShift AI는 vLLM의 효율성과 llm-d 같은 오픈소스 커뮤니티 기반 프로젝트를 결합합니다(llm-d는 모듈식 아키텍처를 사용하여 새로운 수준의 제어와 일관성 및 더 효율적인 리소스 스케줄링을 제공함). 또한, LLM이 쿠버네티스에서 기본적으로 실행되는 방식 및 기업이 AI 워크로드를 확장하는 방식을 바꾸는 기본 요소를 포함하고 있습니다. 

Red Hat OpenShift AI 시작하기

Campaign solution

Red Hat에서의 인공지능(AI)

라이브 이벤트부터 핸즈온 제품 데모, 심층적인 기술 관련 연구에 이르기까지, Red Hat이 다양한 측면에서 AI 발전에 어떻게 기여하고 있는지 알아보세요.

엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드

Red Hat OpenShift AI와 Red Hat Enterprise Linux AI가 어떻게 여러분의 AI 도입 여정을 가속화할 수 있는지 확인해 보세요.

추가 자료

딥러닝이란?

딥러닝은 컴퓨터가 인간의 뇌에서 따온 알고리즘을 사용하여 데이터를 처리하도록 가르치는 인공지능(AI) 기술입니다.

인공지능(AI) 인프라의 구성 요소와 기술적 측면 분석과 탐구

AI 인프라 솔루션은 안정적이고 확장 가능한 데이터 솔루션을 개발하고 배포하기 위해 인공지능과 머신러닝 기술을 융합하고 활용하며, 데이터 관리와 분석을 수행합니다.

검색 증강 생성(RAG)이란?

검색 증강 생성(RAG)은 외부 리소스를 LLM에 연결하여 생성형 AI 모델의 출력 정확성을 향상합니다.

AI/ML 리소스

주요 제품

  • Red Hat AI

    하이브리드 클라우드 인프라에서 AI 솔루션의 개발과 배포를 가속화하는 유연한 솔루션.

관련 기사