Oltre il modello: perché l'infrastruttura intelligente è la nuova frontiera dell'IA

14 ottobre 2025Chris Wright5 minuti (tempo di lettura)

Il proof of concept (PoC) del vostro Large Language Model (LLM) è stato un successo. E adesso? Il passaggio dal singolo server all'inferenza di IA distribuita per la produzione è il punto in cui molte aziende incontrano difficoltà. L'infrastruttura che ti ha portato così lontano ora non riesce a tenere il passo.

Come spiegato in un recente episodio del podcast Technically Speaking, il percorso verso l'IA e i PoC di molte organizzazioni inizia con il deployment di un modello su un singolo server, un'attività gestibile. Ma il passaggio successivo spesso richiede un enorme passo avanti verso l'inferenza dell'IA distribuita, pronta per la produzione. Non si tratta semplicemente di aggiungere più macchine, ma riteniamo che ciò richieda un nuovo tipo di intelligenza all'interno dell'infrastruttura stessa, un piano di controllo sensibile all'IA in grado di gestire la complessità di questi carichi di lavoro unici e dinamici.

La nuova sfida: l'inferenza dell'IA distribuita

Il deployment scalabile di LLM introduce una serie di sfide che l'infrastruttura tradizionale non è progettata per gestire. Un web server standard, ad esempio, elabora richieste uniformi. Al contrario, una richiesta di inferenza basata sull'IA può essere imprevedibile e dispendiosa in termini di risorse, con richieste variabili in termini di elaborazione, memoria e rete.

Considerala come una versione moderna di logistica. Spostare un piccolo pacchetto da una città all'altra è semplice. Ma coordinare una catena di distribuzione globale richiede una gestione intelligente della logistica, un sistema in grado di tracciare migliaia di spedizioni, instradare in modo dinamico diversi tipi di merci e modificare la pianificazione, in modo che tutto arrivi in tempo. Senza questa intelligenza e un'attenta coordinazione, l'intero sistema smette di funzionare. Allo stesso modo, senza un livello di infrastruttura intelligente, la scalabilità dell'IA diventa inefficiente, costosa e inaffidabile.

La complessità di questi carichi di lavoro è legata alle fasi di precompilazione e decodifica dell'inferenza LLM. La fase di precompilazione elabora l'intero prompt di input, ed è un'attività di elaborazione pesante, mentre la fase di decodifica genera i token di output uno alla volta ed è più dipendente dalla capacità della memoria.

La maggior parte dei deployment a server singolo colloca queste due fasi sullo stesso hardware, il che può creare rallentamenti e ridurre le prestazioni, soprattutto per i carichi di lavoro ad alto volume con diversi modelli di richiesta. La vera sfida consiste nell'ottimizzare sia il time-to-first-token (dalla fase di precompilazione) sia la latenza tra i token (dalla fase di decodifica) per massimizzare il throughput, gestire le richieste simultanee e, soprattutto per l'uso aziendale, soddisfare in modo coerente obiettivi del livello di servizio (SLO) definiti.

Una visione comune per un problema comune

Le potenzialità dell'open source sono evidenti nell'affrontare questa complessa sfida di settore. Quando un problema è condiviso da fornitori di hardware, provider di servizi cloud e sviluppatori di piattaforme, la soluzione più valida è in genere quella collaborativa. Invece di avere decine di team che lavorano in modo indipendente per risolvere lo stesso problema, un progetto open source condiviso accelera l'innovazione e aiuta a stabilire uno standard comune.

Il progetto llm-d è un ottimo esempio di questa collaborazione. Avviato da Red Hat e IBM Research, il progetto è stato rapidamente affiancato da un gruppo di leader del settore, tra cui Google e NVIDIA, tutti impegnati in una visione sviluppata in modo collaborativo.

Llm-d è una tecnologia progettata per fornire un "percorso ben illuminato", un modello chiaro e comprovato per la gestione dell'inferenza dell'IA su larga scala. Invece di creare tutto da zero, la community si concentra sull'ottimizzazione e sulla standardizzazione delle sfide operative legate all'esecuzione dei carichi di lavoro di IA su larga scala.

Llm-d: un modello per l'IA da utilizzare in produzione

Il progetto llm-d sta sviluppando un piano di controllo open source che migliora Kubernetes con le funzionalità specifiche necessarie per i carichi di lavoro di IA. Non sostituisce Kubernetes, ma aggiunge un livello di intelligence specializzato ed estende le prestazioni di runtime di vLLM a un livello distribuito.

La community di llm-d è impegnata nella creazione di funzionalità che hanno un impatto diretto sulle prestazioni e sull'efficienza dell'inferenza dell'IA, tra cui:

Routing semantico: lo scheduler di llm-d è a conoscenza dei requisiti specifici delle risorse di ogni richiesta di inferenza. Consente di prendere decisioni intelligenti su dove eseguire un carico di lavoro, di utilizzare in modo efficiente le risorse costose e di prevenire costosi over-provisioning. Questo va oltre il tradizionale bilanciamento del carico utilizzando dati in tempo reale, come l'utilizzo della cache chiave-valore (KV) di un modello, per indirizzare le richieste all'istanza ottimale.
Disaggregazione dei carichi di lavoro: llm-d separa le attività di inferenza complesse in parti piccole e gestibili, in particolare le fasi di precompilazione e decodifica. Ciò fornisce un controllo granulare e consente l'utilizzo di hardware eterogeneo, affinché sia possibile sfruttare la risorsa giusta per l'attività giusta e ridurre i costi operativi complessivi. Ad esempio, un pod di precompilazione può essere ottimizzato per le attività di elaborazione impegnative, mentre un pod di decodifica è personalizzato per l'efficienza della capacità di memoria. Ciò consente un livello di ottimizzazione granulare non realizzabile con un approccio monolitico.
Supporto per architetture avanzate: llm-d è progettato per gestire le architetture di modelli emergenti, come la combinazione di esperti (MoE), che richiedono orchestrazione e parallelismo complessi su più nodi. Supportando l'ampio parallelismo, llm-d consente l'uso efficiente di questi modelli sparsi, che offrono prestazioni elevate e sono convenienti rispetto ai modelli ad alta densità, ma sono difficili da distribuire in modo scalabile.

La community di llm-d prende idee valide da settori come l'High Performance Computing (HPC) e i sistemi distribuiti su larga scala, e lavora per evitare le configurazioni rigide e specializzate che possono renderle difficili da usare. Unisce in modo strategico tecnologie open source, come vLLM per il model serving e il gateway di inferenza per la pianificazione, per creare un framework unificato.

L'attenzione all'operabilità e alla flessibilità è un principio di progettazione fondamentale e il progetto supporta più acceleratori hardware offerti da fornitori come NVIDIA, AMD e Intel. Creando un piano di controllo flessibile che funziona su hardware e ambienti diversi, llm-d si impegna a stabilire uno standard solido e duraturo per il futuro dell'IA aziendale.

Considerazioni finali

Per i leader IT che oggi si dedicano all'operatività dell'IA, il valore del progetto llm-d va oltre la sua community. Il lavoro svolto in questa coalizione open source, in particolare lo sviluppo di un piano di controllo intelligente e sensibile all'IA, è una risposta diretta alle sfide di produzione che molte organizzazioni devono affrontare oggi.

I vantaggi di llm-d sono evidenti:

Permette di andare oltre il singolo server. Ottenere LLM scalabili non significa aggiungere più macchine. Si tratta di implementare un livello strategico di infrastruttura in grado di gestire in modo intelligente i carichi di lavoro distribuiti, gestire hardware complessi e ottimizzare costi e prestazioni.
Sfrutta gli standard open source. Le soluzioni valide emergono da iniziative open source collaborative, non da gruppi privati che lavorano in modo isolato. L'adozione di una piattaforma in linea con questi standard aperti eviterà la dipendenza da uno o più fornitori e fornirà un ambiente flessibile e affidabile per il futuro delle iniziative di IA.
Consente di collaborare con un partner fidato. Non è necessario essere esperti di sistemi distribuiti o contribuire direttamente al progetto llm-d per trarre vantaggio dalla sua innovazione. Il valore creato dalla community è integrato nelle piattaforme enterprise supportate, come Red Hat AI, che fornisce una base coerente e affidabile su cui eseguire il deployment e la gestione dell'IA su larga scala.

Il futuro dell'IA in ambito aziendale dipende da una solida base infrastrutturale. Il lavoro della community llm-d sta gettando le basi e una piattaforma come Red Hat AI può aiutarti a metterle in pratica.

Sull'autore

Chris Wright

Chief Technology Officer and Senior Vice President, Global Engineering

Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.

During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.

Read full bio