Esegui il deployment in modo sicuro: ecco gli ultimi modelli convalidati di Red Hat AI

14 ottobre 2025Rob Greenberg4 minuti (tempo di lettura)

Siamo lieti di presentare i nostri modelli convalidati più recenti, progettati per potenziare i tuoi deployment. L'obiettivo di Red Hat è fornire la sicurezza, la prevedibilità e la flessibilità di cui le organizzazioni hanno bisogno per distribuire modelli di IA generativa di terze parti sulla piattaforma Red Hat AI. Questa versione amplia la nostra raccolta di modelli ottimizzati con benchmark delle prestazioni e valutazioni di precisione, aiutandoti ad accelerare il time to value e a scegliere la soluzione più adatta per il tuo scenario di utilizzo aziendale.

I modelli convalidati di Red Hat AI vanno oltre un semplice elenco e forniscono un'IA efficiente e pronta per le aziende. Uniamo un rigoroso benchmarking delle prestazioni e test di accuratezza con un processo di creazione di pacchetti completo, progettato per il deployment tenendo conto della sicurezza e della semplicità. Ogni modello viene scansionato alla ricerca di vulnerabilità e integrato in un ciclo di vita del software gestito, affinché le aziende possano ricevere una risorsa ad alte prestazioni e ottimizzata per le risorse, incentrata sulla sicurezza, facile da gestire e pronta per gli aggiornamenti a lungo termine.

Cosa sono i modelli convalidati?

Il mondo dei modelli linguistici di grandi dimensioni (LLM) è in rapida espansione, e per le aziende è difficile scegliere quello giusto. Le organizzazioni spesso hanno difficoltà a pianificare la capacità delle risorse di IA e a garantire che le prestazioni di un modello possano essere riprodotte in modo affidabile.

È qui che entrano in gioco i modelli convalidati di Red Hat. Forniamo l'accesso a una serie di modelli di terze parti pronti all'uso, che operano in modo efficiente su vLLM all'interno della nostra piattaforma. Semplifichiamo il processo di selezione eseguendo test approfonditi per te. Il nostro processo di convalida del modello offre diversi vantaggi.

Benchmark delle prestazioni utilizzando GuideLLM per valutare i requisiti delle risorse e i costi su varie configurazioni hardware.
Valutazioni di accuratezza tramite Language Model Evaluation Harness (LM Eval Harness) per misurare il modo in cui i modelli rispondono alle nuove attività.
Deployment riproducibili su vLLM, il motore di inferenza ad alta velocità effettiva, per assicurare che si possano ottenere gli stessi risultati.
Pacchettizzazione incentrata sulla sicurezza e pronta per l'azienda che utilizza formati di container standardizzati nel nostro registro di produzione per creare una risorsa controllata dalla versione, scansionata alla ricerca di vulnerabilità, che semplifica il deployment e la gestione del ciclo di vita.

Questo processo fornisce indicazioni chiare sulla pianificazione della capacità, consentendoti di dimensionare i deployment, selezionare l'hardware ottimale e raggiungere la produzione in modo più rapido e sicuro.

Funzionalità di ottimizzazione dei modelli di Red Hat

Il deployment di LLM efficienti è spesso limitato dal costo elevato e dalla carenza di hardware specializzato, come le GPU ad alta VRAM. Per semplificare l'accesso e consentire alle aziende di eseguire questi modelli in modo più conveniente, anche su meno GPU o su GPU più piccole, Red Hat applica tecniche di compressione dei modelli avanzate.

Questo processo di ottimizzazione critico, guidato da tecnologie come LLM Compressor, prevede tecniche come la quantizzazione (ad esempio, la conversione dei modelli nei formati dinamici INT4, INT8 o FP8) che riducono notevolmente il footprint di memoria e i requisiti di elaborazione degli LLM, preservando con cura la qualità e l'accuratezza dell'output.

I modelli convalidati che trovi nella nostra raccolta, molti dei quali sono precompressi e pronti per il deployment, sono esempi di questa ottimizzazione in azione. Sfruttando queste risorse, Red Hat ti consente di:

ridurre l'utilizzo della VRAM, rendendo possibile la distribuzione di modelli più grandi con risorse GPU meno costose o in numero ridotto;
ridurre i costi operativi massimizzando l'utilizzo dell'hardware;
ottieni un throughput superiore e una latenza inferiore durante la fase di inferenza critica.

Queste risorse ottimizzate e convalidate sono prontamente disponibili nel nostro repository pubblico Red Hat AI Hugging Face e nel registro dei container Red Hat all'indirizzo registry.redhat.io, fornendo una fonte affidabile per il deployment di soluzioni IA ad alte prestazioni e convenienti.

Scopri i modelli convalidati più recenti

Gli ultimi modelli convalidati presentano una gamma di modelli diversificata ed efficiente, ciascuno ottimizzato e pronto per i carichi di lavoro aziendali.

DeepSeek-R1 INT4: un modello di codifica d'élite ideale per generare, completare ed eseguire il debug di codice complesso in più linguaggi di programmazione.
Qwen 3 8B FP8 Dynamic: un modello multilingue di Alibaba, versatile ed efficiente, progettato per applicazioni chatbot globali e per la creazione di contenuti.
Kimi K2 Quantized INT4: questo modello è noto per la sua finestra di contesto eccezionalmente ampia, che lo rende un punto di riferimento per la RAG (Retrieval-Augmented Generation) e per l'analisi di documenti lunghi come contratti legali o documenti di ricerca.
Gemma-3n 4B FP8 Dynamic: i nuovi modelli efficienti di Google offrono un equilibrio tra prestazioni e dimensioni per le attività di riepilogo e le applicazioni sul dispositivo.
openai/gpt-oss-120b & openai/gpt-oss-20b: modelli di grandi dimensioni (e varianti più piccole), di base e generici, in grado di elaborare ragionamenti complessi, generare contenuti articolati e risolvere problemi avanzati.
Qwen3 Coder 480B-A35B-Instruct-FP8: un potente assistente di programmazione di livello enterprise progettato per le pipeline di automazione e sviluppo software più complesse.
Voxtral-Mini-3B-2507 FP8 Dynamic: un modello agile e reattivo incentrato sulla voce e sui dialoghi, ideale per la creazione di applicazioni vocali in tempo reale e agenti interattivi.
whisper-large v3 INT4: un modello speech-to-text all'avanguardia di OpenAI, progettato per una trascrizione dell'audio estremamente accurata, per la creazione di verbali di riunione e per l'abilitazione dei comandi vocali.
NVIDIA-Nemotron-Nano-9B-v2: un nuovo modello di ragionamento e chat generico di NVIDIA, che utilizza un'architettura ibrida per i sistemi di agenti di IA, chatbot e RAG, utilizzabile commercialmente.

Inizia subito

Oggi puoi accedere a questi potenti modelli di IA pronti per il deployment in due modi.

Hugging Face: scopri i modelli convalidati e i relativi dettagli nel repository Red Hat AI.
Red Hat Container Registry: estrai le immagini dei container per il deployment immediato su RHOAI 2.25 o RHAIIS 3.2.2. Consulta la documentazione.

Nota: tutti i modelli sono ottimizzati per il deployment su vLLM (versione 0.10.1.1 o successive).

Prossimamente

Per un'integrazione migliore, questi modelli saranno inclusi nel catalogo di Red Hat OpenShift AI a partire dalla versione 3.0, con disponibilità generale (GA) prevista per novembre.

Per visualizzare i dati completi sulle prestazioni e sulla valutazione, contatta il tuo rappresentante commerciale.

Sull'autore

Rob Greenberg

Principal Product Manager

My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.

Read full bio