vLLM とは
vLLM は、メモリーストレージとグラフィックス・プロセッシング・ユニット (GPU) をより有効に活用することで大規模言語モデル (LLM) での生成 AI 推論を高速化する推論サーバーです。
GPU を効率的に使用すると、LLM は計算をより高速かつ大規模に実行できるようになります。これは、組織がチャットボットやマルチモーダル・ワークフローなどのリアルタイム・アプリケーションを必要とする場合にますます重要になっています。
この記事では、有名企業における vLLM 活用の成功例を 3 つご紹介します。
AI 推論で vLLM が重要な理由
推論中、LLM はキー値に基づいて短時間で大量の計算を実行します。
LLM はキー値を使用してトークン (用語またはフレーズ) に数値を付加し、言語を理解して回答を計算します。そのため、すべてのトークン (キー) は、LLM が回答を計算できるようにする数値 (値) に関連付けられます。
AI 推論では、次の 2 つの主なフェーズでキー値が使用されます。
- プリフィル:モデルが入力プロンプトを処理するときに実行されます。各トークンのキー値は、モデルの短期メモリーとして機能するキー値 (KV) キャッシュを作成します。
- デコード:モデルが新しいトークンを生成するときに実行されます。既存の KV キャッシュを使用して、回答のキー値を計算します。
LLM は、処理されたすべてのトークンのキー値を KV キャッシュに保存します。キャッシュはプロンプトの長さと出力生成に応じて増加するため、LLM メモリーストレージを大量に消費します。従来の LLM メモリー管理システムでは、計算を整理したりメモリーを最も効率的な方法で使用したりしないため、LLM の動作が遅くなります。
vLLM は、推論中に KV キャッシュがどのように使用されるかを理解しているメモリー管理手法を使用します。繰り返されているキー値を識別しながらキャッシュデータを取得することで、メモリーの断片化を防ぎ、LLM の余分な作業を削減します。これにより、GPU メモリーをより効率的に使用でき、LLM 推論が高速化されます。
AI テクノロジーの導入に関する 4 つのキーポイント
vLLM により必要な GPU ストレージを削減
vLLM はさまざまなテクノロジーと手法を使用して、ストレージの使用量を削減し、推論を高速化します。
- 連続バッチ処理:LLM は前のトークンの計算を完了していなくても、次のトークンバッチの推論プロセスを開始できます (vLLM はマルチタスクが可能です)。
- PagedAttention:KV キャッシュを使用して以前のトークンを記憶し、そのメモリーを活用して GPU ストレージを節約する画期的なテクノロジーです。
- 投機的デコード:より小さく、より高速なモデルを使用して着信トークンを予測し、プリフィルステージの速度と効率を高めます。
- 量子化:大きなモデルパラメーターを小さな形式に圧縮するプロセスであり、精度を犠牲にすることなく必要なストレージを削減できます。モデルのカスタマイズで使用できる量子化の手法にはさまざまなものがあります。
処理するトークンを減らしたり、回答を数秒早く生成したりしたところで、それほど大きな違いはないと思われるかもしれません。しかし、企業では何千もの AI ワークロードが処理され、GPU を使用して推論サーバーの計算が行われています。そのすべてにこのメモリー節約手法を適用すれば、時間、費用、リソースを大幅に節約できます。
企業レベルで AI を拡張したい組織にとって、これは画期的です。
企業が vLLM を使用している理由
組織は、大量かつ変動の大きいワークロードで AI 推論を使用しています。しかし、一貫性を持って大規模に LLM をデプロイするには、多くのコンピューティングパワー、リソース、専門的な運用スキルが必要です。
vLLM は、企業での AI 推論をサポートするために必要なハードウェアの使用を効率化し、これらの課題の克服に貢献します。そのため、vLLM はスピードに加えて柔軟性と制御性を必要とする業界にとって特に魅力的な選択肢となっています。
オープンソース・ソリューションである vLLM により、企業は次のことが可能になります。
- GPU を所有および管理する
- データを制御する
- リリースされた新しいモデルをすぐに試す
この優れた自由度により、トークンあたりのコストが下がり、プライバシーに関する懸念が少なくなります。
vLLM は、NVIDIA GPU や AMD GPU、Google TPU、Intel Gaudi、AWS Neuron など、さまざまなハードウェアにデプロイできます。また、vLLM は特定のハードウェアに制限されるものではなく、クラウド、データセンター、エッジのいずれでも機能します。
エンタープライズレベルでの vLLM ユースケース
採用活動からオンラインゲームまで、推論はさまざまな用途に使用されますが、それをスケーリングしようとするとあっという間に複雑になってしまう可能性があります。
次に挙げるのは、大手企業がオープンソース・プロジェクトである vLLM をどのように使用しているかを示す例です。これらの企業は Red Hat の顧客ではありませんが、より広範な vLLM コミュニティとそこから生み出されるテクノロジーを活用しています。
Roblox の vLLM 活用事例
Roblox は、世界中に何百万人ものユーザーを抱えるオンラインゲーム・プラットフォームです。ユーザーは独自のゲーム体験を作成したり、他のユーザーが作成したゲームをプレイしたりできます。
同社の最新機能である、コンテンツ作成を支援する AI チャットボット「Assistant」により、処理されるトークンは 1 週間あたり 10 億以上へと増加しました。リアルタイム AI チャット翻訳や音声安全性モデルなどの追加機能も、推論の複雑さが増す要因となっています。何百万ものユーザーのマルチモーダルなインタラクションに対応したことにより、処理するトークンが増え、推論に必要なリソースも増加しました。
この増大する需要に対処するために、Roblox は主要な推論エンジンとして vLLM を採用しました。特に、世界中の顧客に対応するために、言語タスクに vLLM の投機的デコーディング機能を活用しています。vLLM を導入したことでレイテンシーが 50% 低減され、現在では週あたり 40 億トークンを処理しています。
vLLM により、Roblox はプラットフォームの成長に合わせて拡張し、ユーザーの需要に応えることができるようになりました。Roblox はオープンソース・テクノロジーのサポートにコミットしており、vLLM はその方針に合致しているために選択されました。
Red Hat の vLLM Office Hours で、Roblox が vLLM をどのように使用しているかについてお聞きください。
LinkedIn の vLLM 活用事例
LinkedIn は、多数のアクティブなユーザー層のニーズに対応する幅広い生成 AI ユースケースをサポートするために vLLM を採用しました。
LinkedIn は世界最大級のプロフェッショナル・ネットワーキング・サイトの 1 つであり、200 カ国以上に 10 億人を超える登録者を擁しています。LinkedIn は現在、vLLM により LinkedIn Hiring Assistant など 50 を超える生成 AI ユースケースをサポートすることが可能になっています。
LinkedIn Hiring Assistant は、複雑な分類計算を使用して、応募者を経験年数、スキル、雇用歴などの資格要件でフィルタリングします。これにより、採用担当者は職務に最も適した応募者を見つけることができます。
しかし、この広範にわたる分類を処理するには多数のトークン (候補者 1 人あたり平均 1,000 トークン) が必要となるうえ、応募者プールに何千人もの候補者が登録される可能性があります。
応募の 50% 以上で、プレフィックストークンは共通です (つまり、資格要件に類似点があります)。そのため、LinkedIn Hiring Assistant は vLLM の PagedAttention テクノロジーと連続バッチ処理機能の最適なユースケースでした。このテクノロジーと機能は両方とも、レイテンシーを削減し、高スループットを優先し、GPU ストレージへの負荷を軽減します。
出力トークンあたりの時間 (TPOT) は、モデルが個々のトークンを生成するのにかかる平均時間を示す指標です。 これまでのところ、LinkedIn は vLLM によって TPOT を 7% 向上させることに成功しています。
Amazon の vLLM 活用事例
Amazon の生成 AI ショッピング・アシスタントの Rufus は、決断疲れを軽減することでカスタマーエクスペリエンスを向上させることを目指しています。Rufus は 2025 年に 2 億 5000 万人の顧客にサービスを提供したと報告されており、その数は増え続けています。
この生成 AI ショッピング・アシスタントを使用する顧客の数が増えると、推論の複雑さが増加します。Amazon は、単一のチップやインスタンスでは Rufus をスムーズに実行するのに十分なメモリーを提供できないことに気付きました。
そこで、より高速かつ低レイテンシーで精度を維持できるスケーラブルなマルチノード推論機能を重視することにしました。同社は、vLLM との統合によりスムーズで高速な推論を可能にするマルチノード・アーキテクチャ・ソリューションを構築することで、これを実現しました。
vLLM の連続バッチ処理手法を使用することで、このマルチノード・アーキテクチャでは推論処理をインテリジェントにスケジュールすることができます。これにより、トークンの量がレイテンシーやパフォーマンスに影響を与えることがなくなりました。
vLLM を使用して LLM の効率とスループットを向上させることで、Amazon は Rufus のような生成 AI プロジェクトを拡張し、顧客とともに成長および進化させ続けることができます。
vLLM が推論の将来に与える影響
vLLM には以下のコア機能が備わっているので、今後も AI 推論の将来を支える基盤であり続けます。
- 速度:推論機能は止まることなく向上を続けています。速度とモデル効率の向上のために、vLLM のハードウェアおよびモデルプロバイダーがプロジェクトに直接貢献しています。
- コミュニティ:vLLM には大規模なオープンソース・コミュニティがあり、成長を続けています。 vLLM の効率性は非常に高く、DeepSeek、NVIDIA、Meta、Google など、モデル開発に貢献するトップ 10 企業はすべて、vLLM 用に事前構築されたモデルを作成しています。
- 柔軟性:vLLM は、NVIDIA GPU や AMD GPU、Google TPU、Intel Gaudi、AWS Neuron、およびその他のアクセラレーター (MetaX、Rebellions など) を含む、ほとんどの AI ハードウェアにデプロイできます。多様なハードウェアをサポートしているので、企業は既存のリソースを使用して成果を出すのに必要な柔軟性を獲得できます。
- Day 0 サポート:vLLM は、Meta や Google などの人気のモデルビルダーが新しいモデルをリリースした時点で、そのベースとなるアーキテクチャに対応しています。つまり、vLLM は新しいモデルに対して Day 0 (即時) のサポートを提供できます。そのため vLLM は、モデルを迅速に導入し、コストを削減したい企業にとって、アクセスしやすくすぐに使えるソリューションとなります。
vLLM には、ハイブリッドクラウドで大規模に LLM を管理するための分散推論フレームワークである llm-d も含まれています。
Red Hat のサポート内容
Red Hat® AI は、Red Hat のオープンソースへの取り組みに基づいて構築された AI プラットフォーム・スイートです。 vLLM への最大の企業コントリビューターの 1 社として、当社はこのテクノロジーと、それが当社の AI プラットフォームをどうサポートするかについて深く理解しています。
Red Hat AI には vLLM が搭載されており、GPU の使用を最大化し、応答時間を短縮します。モデル圧縮機能により、パフォーマンスを犠牲にすることなく推論効率を向上させることができます。 これは、ハイブリッド環境でデータに追加のセキュリティ層が必要となるユースケースに役立ちます。
Red Hat AI には、vLLM を使用して AI オープンソースモデルを構築、デプロイ、管理するためのプラットフォームである Red Hat OpenShift® AI が含まれています。Red Hat OpenShift AI は、vLLM の効率性と、llm-d などの追加のオープンソース・コミュニティ主導プロジェクトを組み合わせています。llm-d はモジュール式のアーキテクチャを使用しており、新しいレベルの制御性と一貫性を実現し、より効率的なリソース・スケジューリングを提供します。Red Hat OpenShift AI には、LLM が Kubernetes 上でネイティブに実行される方法と、企業が AI ワークロードをスケーリングする方法を変える基盤が組み込まれています。
Red Hat の人工知能 (AI)
ライブイベントから実践的な製品デモ、高度な技術研究まで、Red Hat における AI の取り組みをご覧ください。