La velocità dell'innovazione nei modelli linguistici di grandi dimensioni (LLM) è sbalorditiva. Tuttavia, man mano che le aziende mettono in produzione questi modelli, il punto centrale cambia: non si parla più solo di pura scalabilità, ma di efficienza misurata sui token e di un uso intelligente e mirato delle risorse di calcolo.
In poche parole, non tutti i prompt richiedono lo stesso livello di ragionamento. Se un utente ha una semplice richiesta, ad esempio "Qual è la capitale della Carolina del Nord?", il processo di ragionamento in più fasi, come quello necessario per una proiezione finanziaria, non serve. Se le organizzazioni utilizzano modelli di ragionamento complessi per ogni richiesta, il risultato è costoso e inefficiente. Il dilemma riguarda l'attuazione del budget per il ragionamento ed è per questo che Red Hat ha sviluppato vLLM Semantic Router, un progetto open source che seleziona in modo intelligente il modello migliore per ogni attività, ottimizzando costi ed efficienza e massimizzando la facilità d'uso.
Cos'è vLLM Semantic Router?
vLLM Semantic Router è un sistema open source che funge da livello per il routing intelligente delle richieste, che tiene conto dei costi per il motore di inferenza vLLM ad alta efficienza. Possiamo considerarlo come uno strumento responsabile delle decisioni che riguardano la pipeline di inferenza LLM; risolve le sfide in termini di efficienza attraverso un routing dinamico e sensibile alla semantica perché:
- utilizza un classificatore leggero, come ModernBERT o altri modelli pre-addestrati, per analizzare l'intento e la complessità della query;
- instrada le query semplici a un LLM più piccolo e più veloce o a un modello senza capacità di ragionamento per risparmiare risorse di calcolo;
- indirizza le richieste complesse che richiedono un'analisi approfondita a modelli più potenti e abilitati al ragionamento.
Lo scopo di vLLM Semantic Router è garantire che ogni token generato aggiunga valore. Scritto in Rust e con l’utilizzo del framework Candle di Hugging Face, il router offre bassa latenza e alta concorrenza ed è progettato per prestazioni elevate.
Grazie alle potenzialità dell'open source, vLLM Semantic Router promuove la flessibilità, permettendo di cambiare modello in modo efficiente, e consente un routing sensibile alla semantica. In questo modo gli sviluppatori possono avere un controllo granulare dell'efficienza e della precisione, scegliendo automaticamente l'LLM o la modalità di ragionamento più adatti all'attività. È altrettanto importante notare che il progetto supporta la distribuzione cloud-native tramite l'integrazione nativa con Kubernetes utilizzando il plugin ext_proc di Envoy. Ciò significa che vLLM Semantic Router è progettato per la distribuzione, la gestione e la scalabilità in ambienti cloud ibridi utilizzando Red Hat OpenShift, supportando pienamente le best practice cloud-native in qualsiasi ambiente cloud.
vLLM Semantic Router e llm-d
In pratica, vLLM Semantic Router è in grado di individuare molti scenari di utilizzo per il deployment. Gli utenti aziendali possono applicare gli stessi concetti di routing nelle distribuzioni llm-d tra cluster: un team può utilizzare un modello GPT-OSS-120B in esecuzione su un cluster H100 di produzione, mentre un altro team accede allo stesso modello su hardware A100 per la sperimentazione. Grazie alle funzionalità di triage di vLLM Semantic Router integrate in llm-d, le richieste possono condividere un singolo punto di ingresso e il sistema le indirizza in modo intelligente all'endpoint dell'infrastruttura corretto, garantendo prestazioni ottimali in base a utenti, policy e risorse di calcolo disponibili.
vLLM Semantic Router supporta il caching semantico e il rilevamento del jailbreak, se distribuito con llm-d. Grazie al caching semantico, prompt ripetuti o simili possono riutilizzare i risultati dell'inferenza esistenti, riducendo il sovraccarico di calcolo per le query ridondanti, vantaggio particolarmente utile negli ambienti di produzione con modelli di domande ricorrenti o sessioni di chat. La funzionalità di rilevamento del jailbreak sfrutta il livello di routing distribuito di llm-d per contrassegnare le richieste non conformi prima che raggiungano il motore di inferenza. Questa combinazione offre alle aziende un flusso di lavoro di inferenza più sicuro, efficiente e sensibile alle policy.
Vantaggi per le aziende e per le community
Per le aziende, l'utilizzo di vLLM Semantic Router si traduce direttamente in un valore aziendale misurabile, poiché aiuta a risolvere il compromesso tra costi e accuratezza. I benchmark del progetto, con la regolazione automatica della modalità di ragionamento utilizzando MMLU-Pro e il modello Qwen3 30B, hanno prodotto miglioramenti significativi in termini di efficienza. La precisione nelle attività complesse ha registrato un miglioramento del 10,2%, mentre la latenza e l'utilizzo dei token sono diminuiti rispettivamente del 47,1% e del 48,5%. Questi risultati indicano che vLLM Semantic Router non solo aiuta a ridurre i costi operativi complessivi, ma può anche aiutare a gestire l'impatto dei modelli di ragionamento, portando a un uso più sostenibile dell'energia.
Quando ho iniziato a sviluppare vLLM Semantic Router, sapevo che questo tipo di routing basato sul ragionamento era in gran parte limitato a sistemi proprietari chiusi. Il DNA open source di Red Hat ci ha richiesto di offrire questa funzionalità cruciale alla community open source, rendendola accessibile e trasparente per tutti. La risposta immediata degli utenti ne ha confermato la necessità. Il progetto ha rapidamente ottenuto un forte slancio da parte della community, registrando oltre 2.000 stelle e quasi 300 fork su GitHub nei due mesi trascorsi dal suo debutto. Il supporto della community open source ha confermato ciò che già sapevo su come si svilupperà il futuro dell'infrastruttura dell’IA: in modo collaborativo e open source.
Red Hat ha una chiara visione per l'era dell'IA: indipendentemente dal modello, dall'acceleratore alla base o dall'ambiente di deployment, vLLM è destinato a diventare lo standard open source definitivo per l'inferenza nel nuovo cloud ibrido, e vLLM Semantic Router è la scelta giusta.
Grazie all’evoluzione dell'inferenza, non ci interroghiamo più sulla possibilità di sfruttare l’intelligenza artificiale, ma ci chiediamo come migliorare la sua efficienza. vLLM Semantic Router offre un livello di calcolo sofisticato e orientato alle attività, fornendo alle aziende gli strumenti open source necessari per creare un'IA efficiente, responsabile e pronta per un uso aziendale. Anche tu puoi offrire il tuo contributo per tracciare la fase successiva dell'inferenza LLM: visita il sito web dedicato al progetto e alla community vLLM Semantic Router su GitHub.
Sull'autore
Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.
Altri risultati simili a questo
Cracking the inference code: 3 proven strategies for high-performance AI
Solving the scaling challenge: 3 proven strategies for your AI infrastructure
Command Line Heroes: Season 2: Bonus_Developer Advocacy Roundtable
Do We Still Need Strong Copyleft Licenses? | Compiler
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud