Die Innovationsgeschwindigkeit bei Large Language Models (LLMs) ist erstaunlich. Wenn Unternehmen diese Modelle jedoch in die Produktion übernehmen, verschiebt sich der Fokus – es geht nicht mehr nur um die reine Größe, sondern um die Effizienz pro Token und den intelligenten, gezielten Einsatz von Rechenleistung.
Einfach ausgedrückt: Nicht alle Prompts erfordern das gleiche Maß an Reasoning. Wenn Nutzende eine einfache Anfrage haben, wie beispielsweise „Was ist die Hauptstadt von North Carolina?“, ist mehrstufiges Reasoning, wie es beispielsweise für eine Finanzprognose erforderlich ist, nicht notwendig. Wenn Unternehmen für jede Anfrage schwerfällige Reasoning-Modelle verwenden, ist das Ergebnis sowohl kostspielig als auch ineffizient. Dieses Dilemma ist das, was wir die Herausforderung der Implementierung von Reasoning-Budgets nennen. Deshalb hat Red Hat den vLLM Semantic Router entwickelt, ein Open Source-Projekt, das auf intelligente Weise das beste Modell für die jeweilige Aufgabe auswählt und so Kosten und Effizienz optimiert und gleichzeitig die Benutzerfreundlichkeit maximiert.
Was ist vLLM Semantic Router?
vLLM Semantic Router ist ein Open Source-System, das als intelligente, kostenbewusste Anfrage-Routing-Schicht für die hocheffiziente vLLM-Inferenz-Engine fungiert. Betrachten Sie die Plattform als Entscheidungsträger für Ihre LLM-Inferenz-Pipeline. Sie löst Effizienzanforderungen durch dynamisches, semantisches Routing, und zwar durch:
- Verwendung eines schlanken Klassifikators wie ModernBERT oder anderer vortrainierter Modelle zur Analyse der Absicht und Komplexität der Suchanfrage
- Routing einfacher Abfragen an ein kleineres, schnelleres LLM oder ein Modell ohne Reasoning, um Rechenressourcen zu sparen
- Weiterleitung komplexer Anfragen, die eine tiefgreifende Analyse erfordern, an leistungsfähigere, logische Modelle
Der Zweck von vLLM Semantic Router besteht darin, sicherzustellen, dass die einzelnen generierten Token Mehrwert bieten. Der in Rust geschriebene Router verwendet das Candle-Framework von Hugging Face, bietet niedrige Latenz und hohe Nebenläufigkeit und ist für eine hohe Performance ausgelegt.
Mit der Leistungsfähigkeit von Open Source fördert der vLLM Semantic Router die Modellflexibilität durch einen effizienten Modellwechsel und semantisches Routing. Entwicklungsteams erhalten eine detaillierte Kontrolle über Effizienz und Genauigkeit, indem sie automatisch das richtige LLM oder den richtigen Argumentationsmodus für die Aufgabe auswählen. Genauso wichtig ist, dass das Projekt cloudnative Deployments durch die native Integration mit Kubernetes und dem Envoy ext_proc-Plugin unterstützt. Das heißt, der vLLM Semantic Router kann mithilfe von Red Hat OpenShift in Hybrid Cloud-Umgebungen bereitgestellt, gemanagt und skaliert werden und unterstützt cloudnative Best Practices in beliebigen Clouds.
vLLM Semantic Router und llm-d
In der Praxis gibt es für den vLLM Semantic Router viele Deployment Use Cases. Enterprise-Anwender können dieselben Routing-Konzepte in llm-d-Bereitstellungen über Cluster hinweg anwenden: Ein Team könnte beispielsweise ein GPT-OSS-120B-Modell verwenden, das auf einem Produktions-H100-Cluster ausgeführt wird, während ein anderes Team für Experimente auf dasselbe Modell auf A100-Hardware zugreift. Mit den Triage-Funktionen des vLLM Semantic Routers, der in llm-d integriert ist, können Anfragen einen einzigen Ingress-Punkt teilen und auf intelligente Weise an den richtigen Infrastruktur-Endpunkt weitergeleitet werden. So wird eine optimale Performance basierend auf Nutzenden, Richtlinien und verfügbaren Rechenressourcen gewährleistet.
Der vLLM Semantic Router unterstützt semantisches Caching und Jailbreak-Erkennung, wenn er mit llm-d bereitgestellt wird. Durch semantisches Caching können wiederholte oder ähnliche Prompts vorhandene Inferenzergebnisse wiederverwenden und reduzieren so den Rechenaufwand für redundante Abfragen. Dies ist besonders nützlich in Produktivumgebungen mit wiederkehrenden Fragemustern oder Chat Sessions. Die Funktion zur Jailbreak-Erkennung nutzt die verteilte Routing-Schicht von llm-d, um nicht konforme Anfragen zu kennzeichnen, bevor sie die Inferenz-Engine erreichen. Diese Kombination bietet Unternehmen einen sichereren, effizienteren und richtlinienbewussten Inferenz-Workflow.
Mehrwert für Unternehmen und die Community
Für Unternehmen führt der Einsatz des vLLM Semantic Routers direkt zu einem messbaren Geschäftswert, da er dazu beiträgt, den Kompromiss zwischen Kosten und Genauigkeit zu eliminieren. Die Benchmarks des Projekts mit automatischer Anpassung des Reasoning-Modus unter Verwendung des MMLU-Pro- und Qwen3-30B-Modells führten zu erheblichen Effizienzsteigerungen. Die Genauigkeit bei komplexen Aufgaben verbesserte sich um 10,2 %, während Latenz und Token-Nutzung um 47,1 % bzw. 48,5 % zurückgingen. Diese Ergebnisse weisen darauf hin, dass mit vLLM Semantic Router nicht nur die Gesamtbetriebskosten gesenkt werden können, sondern auch der Footprint von Reasoning-Modellen besser verwaltet werden kann, was zu einer nachhaltigeren Energienutzung führt.
Als ich anfing, vLLM Semantic Router zu entwickeln, war mir bewusst, dass diese Art von fundiertem Routing weitgehend auf geschlossene, proprietäre Systeme beschränkt ist. Die Open Source-DNA von Red Hat erforderte, diese entscheidende Fähigkeit in die Open Source Community einzubringen, um sie für jedermann zugänglich und transparent zu machen. Die unmittelbare Resonanz bestätigte den Bedarf. Das Projekt gewann schnell an starker Dynamik in der Community und erreichte in den 2 Monaten seit seinem ersten Einsatz über 2.000 Sterne und fast 300 Forks auf GitHub. Die Unterstützung durch die Open Source Community hat bestätigt, was ich bereits über den Aufbau der Zukunft der KI-Infrastruktur wusste: Es ist kollaborativ und offen.
Red Hat hat eine klare Vision für das KI-Zeitalter: Unabhängig vom Modell, dem zugrunde liegenden Beschleuniger oder der Bereitstellungsumgebung ist vLLM dazu bestimmt, sich als definitiver offener Standard für die Inferenz in der neuen Hybrid Cloud durchzusetzen – und vLLM Semantic Router macht dies möglich.
Die Weiterentwicklung der Inferenz basiert auf der Frage „Können wir das ausführen?“ bis hin zur Frage: „Wie können wir die Ausführung verbessern?“ vLLM Semantic Router bietet diese hochentwickelte, aufgabenorientierte Compute-Schicht, mit der Unternehmen die Open Source Tools erhalten, die sie zum Entwickeln einer effizienten, verantwortungsvollen und unternehmensgerechten KI benötigen. Nehmen Sie an der Planung der nächsten Phase der LLM-Inferenz teil, indem Sie die Website des Projekts und die vLLM Semantic Router-Community auf GitHubbesuchen.
Über den Autor
Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.
Ähnliche Einträge
Cracking the inference code: 3 proven strategies for high-performance AI
Solving the scaling challenge: 3 proven strategies for your AI infrastructure
Datacenters And Sustainability | Compiler
Cloud native sustainability with Kepler | Technically Speaking
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen