vLLM beschleunigt KI-Inferenz – 3 Use Cases in Unternehmen

URL kopieren

vLLM ist ein Inferenzserver, der in Large Language Models (LLM) durch optimierte Storage- und GPU-Nutzung (Graphic Processing Unit) für beschleunigte gen KI-Inferenz sorgt. 

Durch den effizienteren Einsatz von GPUs können LLMs Berechnungen schneller und in großem Umfang durchführen. Dieser Aspekt gewinnt zunehmend an Bedeutung, wenn Unternehmen Echtzeitanwendungen wie Chatbots oder multimodale Workflows benötigen. 

Dieser Artikel enthält 3 Beispiele aus der Praxis, wie bekannte Unternehmen vLLM erfolgreich einsetzen.

Ausführlicher Überblick über vLLM

Bei Inferenz kommen in LLMs Key Values (Schlüsselwerte) zum Einsatz, die in kurzer Zeit eine hohe Rechenleistung erbringen. 

LLMs verwenden Key Values, um Tokens (Begriffen oder Phrasen) einen numerischen Wert zuzuweisen, damit Sprache verstanden und Antworten berechnet werden können. Die einzelnen Token (Schlüssel) entsprechen also Zahlen (Werten), die es dem LLM ermöglicht, eine Antwort zu berechnen. 

Bei KI-Inferenz kommen in den 2 Hauptphasen Schlüsselwerte zum Einsatz: 

  • Prefill ist die Phase, in der das Modell den Eingabe-Prompt verarbeitet. Die Schlüsselwerte der einzelnen Token bilden den KV-Cache (Key Value), der dem Modell als Kurzzeitspeicher dient.
  • Decode ist die Phase, in der das Modell neue Tokens generiert. Es verwendet den bestehenden KV-Cache, um die Schlüsselwerte einer Antwort zu berechnen. 

LLMs speichern Schlüsselwerte für jedes verarbeitete Token im KV-Cache. Da der Cache entsprechend der Promptlänge und Ausgabegenerierung wächst, beansprucht er einen großen Teil des LLM-Storage. Traditionelle LLM-Speichermanagementsysteme führen Berechnungen weder organisiert durch noch verwenden sie ihren Speicher optimal. Dadurch werden die LLMs verlangsamt. 

vLLM setzt eine Speichermanagementtechnik ein, die die Funktionalität von KV-Caches bei Inferenz nachvollziehen kann. Der Abruf der Cache-Daten erfolgt auf eine Art und Weise, bei der repetitive Schlüsselwerte erkannt werden, wodurch Speicherfragmentierung vermieden und zusätzlicher Aufwand für das LLM reduziert werden können. So wird der GPU-Speicher effizienter genutzt und die LLM-Inferenz beschleunigt. 

Mehr über die Vorteile einer KI-Skalierung erfahren 

4 wichtige Überlegungen zur Implementierung von KI-Technologie

Bei vLLM kommen unterschiedliche Technologien und Techniken zum Einsatz, um Storage zu reduzieren und Inferenz zu beschleunigen: 

  • Kontinuierliches Batching: LLMs beginnen den Inferenzprozess für den nächsten Batch von Tokens bereits dann, wenn die Berechnungen eines vorherigen Tokens noch nicht abgeschlossen sind. (vLLM ist multitaskingfähig.)
  • PagedAttention: Dabei handelt es sich um eine bahnbrechende Technologie, die den KV-Cache verwendet, um sich an vorherige Tokens zu erinnern und mittels seiner Erinnerungsfähigkeit GPU-Storage einzusparen.
  • Spekulatives Decoding: Dabei kommt ein kleineres, schnelleres Modell zur Token-Prädiktion zum Einsatz für eine verkürzte Prefill-Phase mit gesteigerter Effizienz.
  • Quantisierung: Bei diesem Prozess werden größere Modellparameter in kleinere Formate umgewandelt und so Storage-Bedarf reduziert, ohne Abstriche bei der Genauigkeit machen zu müssen. Es gibt verschiedene Quantisierungsmethoden zur individuellen Modellanpassung.

Es mag zunächst belanglos erscheinen, dass eine reduzierte Anzahl von Tokens verarbeitet oder eine Antwort ein paar Sekunden schneller generiert wird. Wenn allerdings Unternehmen diese Technik zur Speicherersparnis anwenden – bei Tausenden von Berechnungen von KI-Workloads, GPUs und Inferenzservern – können sie erheblich Zeit, Geld und Ressourcen einsparen. 

Das ist ein Gamechanger für Unternehmen, die KI-Skalierung auf Unternehmensebene anstreben. 

Mehr über beschleunigte KI durch verteilte Inferenz in großem Umfang erfahren

Unternehmen verwenden KI-Inferenz bei hochvariablen Workloads mit großem Volumen. Aber ein konsistentes Deployment von LLMs in großem Umfang erfordert viel Rechenleistung, Ressourcen und spezielle operative Kompetenzen

vLLM kann diese Herausforderungen bewältigen, indem es die zur Unterstützung der KI-Inferenz in Unternehmen erforderliche Hardware effizienter nutzt. Daher ist vLLM besonders attraktiv für Branchen, die neben Geschwindigkeit auch Flexibilität und Kontrolle benötigen. 

Als Open Source-Lösung bietet vLLM Unternehmen folgende Vorteile: 

  • Besitz und Verwaltung ihrer GPUs
  • Kontrolle ihrer Daten
  • Möglichkeit, mit neuen Modellen unmittelbar nach deren Release zu experimentieren

Diese Freiheiten sind mit geringeren Kosten pro Token und weniger Bedenken hinsichtlich des Datenschutzes verbunden. 

vLLM kann auf einer Vielzahl von Hardware bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi und AWS Neuron. vLLM ist auch nicht auf bestimmte Hardware beschränkt, sondern funktioniert gleichermaßen in der Cloud, im Rechenzentrum oder am Netzwerkrand.

vLLM im Vergleich zu Ollama: Anwendungsbereiche der jeweiligen Frameworks

Von Recruiting-Maßnahmen bis zu Online-Spielen – Skalieren von Inferenz kann schnell komplex werden. 

Die nachfolgenden Beispiele zeigen, wie Unternehmen das Open Source-Projekt vLLM einsetzen. Diese Unternehmen sind keine Kunden von Red Hat, sondern profitieren von der umfassenderen vLLM Community und der daraus hervorgehenden Technologie. 

Wie setzt Roblox vLLM ein?

Bei Roblox handelt es sich um eine Plattform für Online-Spiele, die über Millionen von Nutzende weltweit verfügt. Nutzende können dort eigene Spiele kreieren und Spiele von anderen spielen. 

Das neueste Feature, Assistant (ein KI-Chatbot zur Unterstützung beim Erstellen von Inhalten), hat die Anzahl der verarbeiteten Tokens auf mehr als 1 Milliarde pro Woche gesteigert. Weitere Features wie KI-Chat-Übersetzungen in Echtzeit und das Sprachsicherheitsmodell haben die Inferenzkomplexität zusätzlich erhöht. Diese Multimodalität zwischen Millionen von Nutzendeninteraktionen führt zu mehr zu verarbeitenden Tokens, die noch mehr Inferenzressourcen beanspruchen. 

Um dem steigenden Verarbeitungsbedarf gerecht zu werden, hat Roblox vLLM als primäre Inferenz-Engine eingeführt. Roblox nutzt für seine globale Kundenbasis insbesondere die vLLM-Funktionen für spekulatives Decoding für Sprachaufgaben. Seit der vLLM-Einführung verzeichnet Roblox beim Verarbeiten von 4 Milliarden Tokens pro Woche eine um 50 % geringere Latenz. 

vLLM ermöglicht es Roblox, zu skalieren und dem durch die wachsende Plattform steigenden Bedarf der Nutzenden gerecht zu werden. Roblox hat sich für vLLM entschieden, weil es als Open Source-Projekt seiner Philosophie, derartige Technologien zu unterstützen, entspricht. 

Hören Sie sich in den vLLM Office Hours von Red Hat an, wie Roblox vLLM genau einsetzt. 

Mehr über Roblox und vLLM erfahren 

Wie setzt LinkedIn vLLM ein?

LinkedIn hat vLLM eingeführt, um die große Bandbreite an Use Cases für gen KI zu unterstützen, die auf sein großes und aktives Publikum ausgerichtet sind. 

LinkedIn gehört zu den größten professionellen Networking-Websites weltweit und verfügt über mehr als 1 Milliarde Mitglieder in über 200 Ländern. vLLM ermöglicht es LinkedIn nun, mehr als 50 Use Cases für gen KI zu unterstützen, wie beispielsweise LinkedIn Hiring Assistant

Anhand komplexer Berechnungen zur Klassifizierung filtert LinkedIn Hiring Assistant die Qualifikationen von Bewerberinnen und Bewerbern beispielsweise nach Jahren Berufserfahrung, Kompetenzen und früheren Anstellungen. So ist es für Recruiter einfacher, für Bewerberinnen und Bewerber den Job zu finden, der am besten zu ihnen passt. 

Aber die Verarbeitung dieser vielfältigen Klassifikationen erfordert viele Tokens (durchschnittlich 1.000 pro Person), und manchmal gibt es für eine Stelle Tausende von Bewerberinnen und Bewerbern. 

Mehr als 50 % der Bewerbungen verfügen über die gleichen Prefix-Tokens (bei den Qualifikationen gibt es Ähnlichkeiten). Das macht LinkedIn Hiring Assistant zu einem perfekten Use Case für die PagedAttention-Technologie und das kontinuierliche Batching von vLLM. Beide Funktionen verringern die Latenz, erhöhen den Durchsatz und entlasten den GPU-Storage. 

TPOT (Time per Output Token) gibt die durchschnittliche Zeit an, die ein Modell braucht, um jedes individuelle Token zu generieren. Bis jetzt konnte LinkedIn mithilfe von vLLM seine TPOT um 7 % verbessern. 

Mehr über LinkedIn und vLLM erfahren 

Wie setzt Amazon vLLM ein?

Rufus, der gen KI-Einkaufsassistent von Amazon, soll das Kundenerlebnis verbessern, indem er für weniger Entscheidungsmüdigkeit sorgt. Rufus hat 2025 250 Millionen Kunden unterstützt – und diese Zahl wächst weiter. 

Da viele Kunden den gen KI-Einkaufsassistenten verwendeten, nahm die Inferenzkomplexität zu. Amazon erkannte, dass kein einzelner Chip beziehungsweise keine einzelne Instanz über ausreichend Speicher verfügte, um Rufus problemlos ausführen zu können. 

Für Amazon war das Vorhandensein skalierbarer Inferenzfunktionen mit mehreren Knoten ausschlaggebend, bei denen eine erhöhte Geschwindigkeit und verringerte Latenz nicht auf Kosten der Genauigkeit gehen. Die Lösung war eine kombinierte Architektur mit mehreren Knoten, die für problemlose und schnelle Inferenz mit vLLM integriert wurde. 

Durch den Einsatz der Technik für kontinuierliches Batching von vLLM, konnte die Inferenzverarbeitung in der Architektur mit mehreren Knoten intelligent geplant werden, sodass das Tokenvolumen weder die Latenz noch die Performance beeinträchtigte. 

Mit vLLM für eine höhere Effizienz und einen verbesserten Durchsatz der LLMs kann Amazon gen KI-Projekte wie Rufus skalieren, die mit den Kunden weiter wachsen und sich weiterentwickeln werden.

Mehr über Amazon und vLLM erfahren 

vLLM wird aufgrund seiner Kernfunktionen auch in Zukunft die Basis für KI-Inferenz bilden: 

  • Geschwindigkeit: Die Inferenzfunktionen werden immer besser. Die Hardware- und Modellanbieter von vLLM arbeiten direkt an dem Projekt mit, um sowohl die Geschwindigkeit als auch die Modelleffizienz zu optimieren.
  • Community: vLLM verfügt über eine große Open Source Community, die kontinuierlich wächst. Sämtliche der 10 am Modell mitwirkenden Hauptparteien – wie Deepseek, NVIDIA, Meta und Google – entwerfen aufgrund der Effizienz für vLLM vorgefertigte Modelle.
  • Flexibilität: vLLM kann auf fast jeder KI-Hardware bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi, AWS Neuron und andere Beschleuniger wie MetaX, Rebellions und so weiter. Dieser vielfältige Hardware-Support bietet Unternehmen die nötige Flexibilität, damit sie mit bereits vorhandenen Ressourcen Ergebnisse liefern können.
  • Day-0-Support: Wenn gängige Modellentwickler wie Meta oder Google ein neues Modell veröffentlichen, ist vLLM mit dessen bestehenden Architekturen bereits vertraut. Folglich kann vLLM für neue Modelle Day-0-Support (unmittelbaren Support) anbieten. vLLM ist also eine zugängliche, sofort einsatzbereite Lösung für Unternehmen, die Modelle zeitnah bereitstellen und die Kosten senken möchten. 

vLLM beinhaltet auch llm-d, ein Framework für verteilte Inferenz zum Verwalten von LLMs in großem Umfang in der Hybrid Cloud.

Mehr über die vLLM Community auf GitHub erfahren

Bei Red Hat® AI handelt es sich um eine Reihe von KI-Plattformen, die auf Basis der Open Source-Philosophie von Red Hat entwickelt wurden. Wir haben zu vLLM mit am meisten kommerziell beigetragen und verfügen daher über detailliertes Fachwissen sowohl in Bezug auf die Technologie als auch auf die Funktionalität, die unsere KI-Plattformen unterstützt.

vLLM-gestützt maximiert Red Hat AI die GPU-Nutzung und trägt so zu verkürzten Reaktionszeiten bei. Seine Funktionen zur Modellkomprimierung steigern die Inferenzeffizienz, ohne die Performance zu beeinträchtigen. Das ist bei denjenigen Use Cases hilfreich, wo Daten in einer Hybridumgebung einer zusätzlichen Sicherheitsinstanz bedürfen. 

Mehr über Red Hat AI und den möglichen Nutzen für Ihr Unternehmen erfahren 

Red Hat AI beinhaltet Red Hat OpenShift® AI, eine Plattform zum Entwickeln, Bereitstellen und Verwalten von KI-Open Source-Modellen mit vLLM. Red Hat OpenShift AI kombiniert die Effizienz von vLLM mit zusätzlichen von der Community unterstützten Open Source-Projekten wie llm-d, das durch seine modulare Architektur neue Ebenen von Kontrolle, Konsistenz und effizienterer Ressourcenplanung bietet. Es bezieht Grundsätze mit ein, die verändern, wie LLMs nativ auf Kubernetes ausgeführt werden und Unternehmen ihre KI-Workloads skalieren. 

Mit Red Hat OpenShift AI starten

Campaign solution

Künstliche Intelligenz (KI) bei Red Hat

Von Live-Veranstaltungen über praktische Produktdemos bis hin zu fundierter technischer Forschung – erfahren Sie, was wir bei Red Hat mit KI erreichen.

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

In diesem Guide für den Einstieg erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die KI-Einführung beschleunigen können.

Weiterlesen

Was ist MLOps? Machine Learning Operations erklärt

MLOps ist eine Reihe von Workflow-Praktiken mit dem Ziel, Bereitstellung und Management von Machine Learning-Modellen (ML) zu optimieren. Einsatz und Vorteile

Was ist KI-Inferenz?

KI-Inferenz bezieht sich auf den Vorgang, bei dem ein KI-Modell eine auf Daten basierende Antwort gibt. Es handelt sich dabei um den letzten Schritt in einem komplexen Prozess der ML-Technologie (Machine Learning).

Was sind Basismodelle für KI?

Ein Basismodell ist ein Machine Learning-Modell (ML), das für das Ausführen verschiedener Aufgaben trainiert ist.

Ressourcen zu KI/ML

Ausgewähltes Produkt

  • Red Hat AI

    Flexible Lösungen, die die Entwicklung und Bereitstellung von KI-Lösungen in Hybrid Cloud-Umgebungen beschleunigen.

Verwandte Artikel