La velocità dell'innovazione nei modelli linguistici di grandi dimensioni (LLM) è sbalorditiva. Tuttavia, man mano che le aziende mettono in produzione questi modelli, il punto centrale cambia: non si parla più solo di pura scalabilità, ma di efficienza misurata sui token e di un uso intelligente e mirato delle risorse di calcolo.

In poche parole, non tutti i prompt richiedono lo stesso livello di ragionamento. Se un utente ha una semplice richiesta, ad esempio "Qual è la capitale della Carolina del Nord?", il processo di ragionamento in più fasi, come quello necessario per una proiezione finanziaria, non serve. Se le organizzazioni utilizzano modelli di ragionamento complessi per ogni richiesta, il risultato è costoso e inefficiente. Il dilemma riguarda l'attuazione del budget per il ragionamento ed è per questo che Red Hat ha sviluppato vLLM Semantic Router, un progetto open source che seleziona in modo intelligente il modello migliore per ogni attività, ottimizzando costi ed efficienza e massimizzando la facilità d'uso.

Cos'è vLLM Semantic Router?

vLLM Semantic Router è un sistema open source che funge da livello per il routing intelligente delle richieste, che tiene conto dei costi per il motore di inferenza vLLM ad alta efficienza. Possiamo considerarlo come uno strumento responsabile delle decisioni che riguardano la pipeline di inferenza LLM; risolve le sfide in termini di efficienza attraverso un routing dinamico e sensibile alla semantica perché:

  • utilizza un classificatore leggero, come ModernBERT o altri modelli pre-addestrati, per analizzare l'intento e la complessità della query;
  • instrada le query semplici a un LLM più piccolo e più veloce o a un modello senza capacità di ragionamento per risparmiare risorse di calcolo;
  • indirizza le richieste complesse che richiedono un'analisi approfondita a modelli più potenti e abilitati al ragionamento.

Lo scopo di vLLM Semantic Router è garantire che ogni token generato aggiunga valore. Scritto in Rust e con l’utilizzo del framework Candle di Hugging Face, il router offre bassa latenza e alta concorrenza ed è progettato per prestazioni elevate.

Grazie alle potenzialità dell'open source, vLLM Semantic Router promuove la flessibilità, permettendo di cambiare modello in modo efficiente, e consente un routing sensibile alla semantica. In questo modo gli sviluppatori possono avere un controllo granulare dell'efficienza e della precisione, scegliendo automaticamente l'LLM o la modalità di ragionamento più adatti all'attività. È altrettanto importante notare che il progetto supporta la distribuzione cloud-native tramite l'integrazione nativa con Kubernetes utilizzando il plugin ext_proc di Envoy. Ciò significa che vLLM Semantic Router è progettato per la distribuzione, la gestione e la scalabilità in ambienti cloud ibridi utilizzando Red Hat OpenShift, supportando pienamente le best practice cloud-native in qualsiasi ambiente cloud.

vLLM Semantic Router e llm-d

In pratica, vLLM Semantic Router è in grado di individuare molti scenari di utilizzo per il deployment. Gli utenti aziendali possono applicare gli stessi concetti di routing nelle distribuzioni llm-d tra cluster: un team può utilizzare un modello GPT-OSS-120B in esecuzione su un cluster H100 di produzione, mentre un altro team accede allo stesso modello su hardware A100 per la sperimentazione. Grazie alle funzionalità di triage di vLLM Semantic Router integrate in llm-d, le richieste possono condividere un singolo punto di ingresso e il sistema le indirizza in modo intelligente all'endpoint dell'infrastruttura corretto, garantendo prestazioni ottimali in base a utenti, policy e risorse di calcolo disponibili.

vLLM Semantic Router supporta il caching semantico e il rilevamento del jailbreak, se distribuito con llm-d. Grazie al caching semantico, prompt ripetuti o simili possono riutilizzare i risultati dell'inferenza esistenti, riducendo il sovraccarico di calcolo per le query ridondanti, vantaggio particolarmente utile negli ambienti di produzione con modelli di domande ricorrenti o sessioni di chat. La funzionalità di rilevamento del jailbreak sfrutta il livello di routing distribuito di llm-d per contrassegnare le richieste non conformi prima che raggiungano il motore di inferenza. Questa combinazione offre alle aziende un flusso di lavoro di inferenza più sicuro, efficiente e sensibile alle policy.

Vantaggi per le aziende e per le community

Per le aziende, l'utilizzo di vLLM Semantic Router si traduce direttamente in un valore aziendale misurabile, poiché aiuta a risolvere il compromesso tra costi e accuratezza. I benchmark del progetto, con la regolazione automatica della modalità di ragionamento utilizzando MMLU-Pro e il modello Qwen3 30B, hanno prodotto miglioramenti significativi in termini di efficienza. La precisione nelle attività complesse ha registrato un miglioramento del 10,2%, mentre la latenza e l'utilizzo dei token sono diminuiti rispettivamente del 47,1% e del 48,5%. Questi risultati indicano che vLLM Semantic Router non solo aiuta a ridurre i costi operativi complessivi, ma può anche aiutare a gestire l'impatto dei modelli di ragionamento, portando a un uso più sostenibile dell'energia.

Quando ho iniziato a sviluppare vLLM Semantic Router, sapevo che questo tipo di routing basato sul ragionamento era in gran parte limitato a sistemi proprietari chiusi. Il DNA open source di Red Hat ci ha richiesto di offrire questa funzionalità cruciale alla community open source, rendendola accessibile e trasparente per tutti. La risposta immediata degli utenti ne ha confermato la necessità. Il progetto ha rapidamente ottenuto un forte slancio da parte della community, registrando oltre 2.000 stelle e quasi 300 fork su GitHub nei due mesi trascorsi dal suo debutto. Il supporto della community open source ha confermato ciò che già sapevo su come si svilupperà il futuro dell'infrastruttura dell’IA: in modo collaborativo e open source.

Red Hat ha una chiara visione per l'era dell'IA: indipendentemente dal modello, dall'acceleratore alla base o dall'ambiente di deployment, vLLM è destinato a diventare lo standard open source definitivo per l'inferenza nel nuovo cloud ibrido, e vLLM Semantic Router è la scelta giusta.

Grazie all’evoluzione dell'inferenza, non ci interroghiamo più sulla possibilità di sfruttare l’intelligenza artificiale, ma ci chiediamo come migliorare la sua efficienza. vLLM Semantic Router offre un livello di calcolo sofisticato e orientato alle attività, fornendo alle aziende gli strumenti open source necessari per creare un'IA efficiente, responsabile e pronta per un uso aziendale. Anche tu puoi offrire il tuo contributo per tracciare la fase successiva dell'inferenza LLM: visita il sito web dedicato al progetto e alla community vLLM Semantic Router su GitHub.


Sull'autore

Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud