L'IA aziendale si sta evolvendo dai singoli modelli agli ecosistemi di dati unificati.
Man mano che le iniziative di IA delle aziende si ampliano, emerge un'interessante opportunità: creare un gateway di dati unificato che connetta ogni fase della pipeline di IA, dai dati non elaborati all'elaborazione, ai cataloghi delle funzionalità e alla distribuzione dei modelli. Non si tratta solo di gestire la complessità, ma anche di creare una base che aiuti ad accelerare l'innovazione.
Spesso, i data scientist si trovano a ricostruire le stesse funzionalità più volte. Un team calcola il Customer Lifetime Value per un modello di previsione del tasso di abbandono e, tre mesi dopo, un altro team necessita dello stesso calcolo per un motore che genera suggerimenti, ma non sa che esiste già. Di conseguenza, lo ricostruisce da zero, introducendo incongruenze e sprecando settimane di tempo per svilupparlo.
Questo è il problema del riutilizzo delle funzionalità e costa tempo e qualità alle aziende.
Cos'è un feature store?
Un feature store è una piattaforma centralizzata che gestisce, archivia e distribuisce le funzionalità di machine learning, ovvero le variabili di input che i modelli utilizzano per fare previsioni. Immagina un catalogo di dati progettato specificamente per l'IA. Invece di cercare nella documentazione o chiedere ai colleghi se qualcun altro ha già calcolato la velocità di acquisto mensile, i data scientist possono scoprire, riutilizzare e condividere le funzionalità in tutti i loro progetti di machine learning (ML).
Un feature store, però, non si limita a catalogare le funzionalità. Risolve tre problemi fondamentali.
- Riutilizzo delle funzionalità: consente agli sviluppatori di individuare e riutilizzare le funzionalità esistenti invece di ricostruirle da zero.
- Coerenza training-serving: aiuta a rafforzare la coerenza, in modo che i modelli utilizzino calcoli delle funzionalità identici durante l’addestramento e la produzione, evitando brutte sorprese al momento della distribuzione.
- Semplicità operativa: consente di gestire pipeline di funzionalità, controllo delle versioni e monitoraggio tramite un'unica interfaccia.
Red Hat OpenShift AI include funzionalità di feature store integrate, basate sul progetto open source Feast, come componente nativo della piattaforma. Non è richiesta alcuna installazione separata. È disponibile e può essere attivata quando i team sono pronti ad adottare procedure di sviluppo incentrate sulle funzionalità.
L'opportunità di un gateway di dati unificato
Feast può fungere da livello di accesso singolo e coerente per tutte le pipeline di dati IA. Sviluppato su una comprovata base open source con oltre 6.500 stelle su GitHub e più di 16 milioni di download, Feast connette sorgenti di dati, motori di elaborazione (Ray/Spark) e agenti di orchestrazione (KFP/Airflow) in un catalogo unificato, affinché le aziende possano creare dati indipendenti dal fornitore.
Il front-end della pipeline: semplificare i flussi di lavoro dei dati IA complessi
Il feature store di Red Hat OpenShift AI supporta un approccio unificato.
- Base indipendente dal fornitore: si integra con Spark, Ray, Milvus, Elastic, Postgres e molti altri database diffusi, consentendoti di scegliere l'infrastruttura più adatta a te.
- Visibilità completa della pipeline: dai dati non elaborati all'ingegneria delle funzionalità, fino all'inferenza del modello.
- Libertà di deployment ibrido: esecuzione coerente in ambienti on premise, cloud ed edge.
- Innovazione open source: realizzata sulla base comprovata di Feast, con oltre 16 milioni di download, è utilizzato e supportato da molte aziende, tra cui Shopify, NVIDIA, Walmart e altre ancora.
Questo approccio risolve anche le sfide aziendali reali. Le agenzie federali possono elaborare i dati sensibili on premise, sfruttando al contempo il cloud computing. Gli istituti finanziari possono soddisfare i requisiti di conformità mantenendo la flessibilità operativa. Le aziende manifatturiere possono elaborare i dati all'edge, connettendosi al contempo all'analisi centralizzata.
L'architettura a tre livelli: dati, elaborazione e catalogo
L'approccio di Red Hat alla gestione dei dati basati sull'IA si fonda su una visione semplice ma efficace: le migliori piattaforme enterprise connettono l'infrastruttura esistente, invece di sostituirla. Ti mostreremo come funziona nella pratica, attraverso la storia di un'azienda di servizi finanziari che ha adottato i feature store.
Livello 1 - Sorgenti dati: accedi ai tuoi dati ovunque
Considera una grande banca che implementa il rilevamento delle frodi. I dati dei clienti risiedono in un database Oracle on premise (requisiti di conformità normativa), i flussi delle transazioni transitano attraverso Kafka su AWS (elaborazione moderna in tempo reale) e i modelli storici si trovano in un data warehouse Snowflake (investimento del team di analisi di tre anni fa).
Le soluzioni di feature store tradizionali impongono una scelta: trasferire tutto sulla piattaforma oppure non utilizzare affatto il feature store. Ciò crea una situazione molto difficile: il database Oracle non può essere spostato a causa della conformità, il team non rinuncerà all'investimento in Snowflake e le pipeline Kafka in tempo reale sono fondamentali per le operazioni.
Il feature store di Red Hat risolve questo problema grazie alla connettività universale dei dati.
- Connessione ovunque: le funzionalità possono essere estratte da database on premise, storage su cloud, sensori all'edge della rete e piattaforme di streaming, tutto nella stessa definizione di funzionalità.
- Utilizzo degli investimenti esistenti: il team impegnato nel rilevamento delle frodi continua a utilizzare l'infrastruttura esistente senza costi di migrazione o interruzioni all’operatività.
- Rispetto della conformità: i dati sensibili dei clienti rimangono nel database on premise, mentre il feature store orchestra l'accesso controllato.
Il team che si occupa del rilevamento delle frodi della banca definisce le proprie funzionalità una sola volta ("customer_transaction_velocity_30d", "account_risk_score", "merchant_category_pattern") e il feature store gestisce la complessità dell'estrazione da Oracle, dell'unione con i flussi Kafka e dell'arricchimento con la cronologia di Snowflake. I data scientist non dovranno più scrivere un'altra istruzione JOIN per unire queste sorgenti.
Livello 2 - Elaborazione: flessibilità per ogni carico di lavoro
Vediamo ora come vengono calcolate queste funzionalità. Il team di rilevamento delle frodi deve elaborare miliardi di transazioni al giorno, ma funzionalità diverse hanno esigenze di elaborazione diverse:
- le aggregazioni semplici (conteggi delle transazioni) vengono eseguite in modo efficiente in SQL;
- il rilevamento di modelli complessi (anomalie comportamentali) richiede Spark per l'elaborazione distribuita;
- l'assegnazione di un punteggio di rischio in tempo reale (latenza inferiore a un secondo) richiede un'elaborazione in streaming leggera.
La maggior parte delle piattaforme di funzionalità vincola l'utente al motore di elaborazione preferito. Se hai investito nelle competenze e nell'infrastruttura di Spark, ti viene chiesto di abbandonare il progetto e di apprendere il loro sistema proprietario. Se hai bisogno di Ray per trasformazioni di ML complesse, non hai fortuna.
Il feature store di Red Hat offre flessibilità di elaborazione.
- Motori indipendenti dal fornitore: supporto nativo per Ray e Spark, oltre alla possibilità di utilizzare il proprio framework di elaborazione (Spark, Ray, ecc.).
- Standard aperti: Funzionalità definite utilizzando Python e SQL standard, anziché DSL proprietari che creano dipendenza.
Il team di rilevamento delle frodi esegue le aggregazioni semplici in Postgres (già distribuite), esegue modelli comportamentali complessi nel cluster Spark esistente (preservando anni di investimento nell'infrastruttura) e distribuisce motori per l’assegnazione di punteggi in tempo reale presso le filiali, per il rilevamento istantaneo delle frodi. Stesse definizioni delle funzionalità, diverse strategie di elaborazione in base ai requisiti aziendali.
Livello 3 - Catalogo unificato: un'unica interfaccia per tutte le funzionalità
È qui che iniziano le difficoltà. Il team di rilevamento delle frodi ha definito più di 50 funzionalità, estratte da tre sorgenti di dati ed eseguite su due piattaforme di elaborazione. Senza un catalogo unificato, ecco cosa succede:
- i data scientist sprecano ore a cercare tra repository Git, notebook Jupyter e conoscenze del team, per capire se qualcuno ha già creato un calcolatore mensile della velocità delle transazioni;
- quando trovano una funzionalità, scoprono che è incompatibile: nomi delle colonne diversi, timestamp diversi, finestre di aggregazione diverse;
- gli ingegneri di produzione faticano a comprendere le dipendenze delle funzionalità (quali funzionalità dipendono da quali sorgenti di dati e processi di elaborazione?);
- i responsabili della conformità non sono in grado di rispondere alla domanda "chi ha accesso alle funzionalità riservate dei clienti?".
Il catalogo unificato (Feast) risolve tutti questi problemi.
- Interfaccia singola: i data scientist scoprono tutte le 50 funzionalità tramite un'unica interfaccia di ricerca, senza dover cercare nei repository o chiedere su Slack;
- visibilità completa della pipeline: ogni funzionalità mostra esattamente da dove provengono i dati, quali risorse di elaborazione richiedono e quali modelli li utilizzano;
- governance predisposta per l'azienda: il controllo degli accessi basato sui ruoli (Role-Based Access Control, RBAC) integrato consente l'accesso alle funzionalità sensibili solo ai team autorizzati, audit trail completi tengono traccia di ogni accesso e flussi di lavoro di approvazione applicano gli standard di deployment in produzione.
Ecco come si presenta per due utenti diversi:
Flusso di lavoro amministrativo (team della piattaforma):
- abilita il feature store: nella dashboard di OpenShift AI, accedi alle impostazioni del feature store e abilita il componente (integrato, senza installazione separata);
- configura le autorizzazioni: definisce quali team di data science possono creare funzionalità, quali possono soltanto utilizzare le funzionalità e quali sorgenti di dati sono accessibili per ciascun team;
- monitora e operazioni: la dashboard mostra l'integrità della pipeline delle funzionalità, l'utilizzo delle risorse e l'aggiornamento dei dati.
Flusso di lavoro del data scientist:
- scopre le funzionalità: cerca "transaction" nel catalogo delle funzionalità e trova le 12 funzionalità esistenti, tra cui "customer_transaction_velocity_30d", creata dal team antifrode lo scorso trimestre;
- comprende il contesto: seleziona la funzione per visualizzare le sorgenti dei dati (transazioni Kafka + clienti Oracle), i requisiti di elaborazione (processo Spark, esecuzioni quotidiane) e un esempio di codice di utilizzo;
- riutilizza in un nuovo modello: copia la definizione della funzionalità nel progetto del motore che genera raccomandazioni per ottenere la stessa logica di calcolo e coerenza tra rilevamento delle frodi e suggerimenti;
- esegue l'iterazione rapida: avvia i notebook Jupyter già integrati direttamente dal catalogo delle funzionalità, con l'autenticazione già configurata.
Risultato: per fare ciò che prima richiedeva tre giorni di ricerche, cinque conversazioni su Slack e il debugging di calcoli incoerenti, ora bastano dieci minuti. Inoltre, quando il team responsabile del rilevamento delle frodi migliora il calcolo della velocità delle transazioni, tutti i modelli downstream beneficiano automaticamente del miglioramento.
Questo è il valore aggiunto di un catalogo unificato: ogni funzionalità creata rende lo sviluppo dell'IA dell'intera azienda più rapido, affidabile e coerente.
L'impatto aziendale: da strumento tattico a piattaforma strategica
Questa architettura a tre livelli trasforma i feature store da un componente tattico a un gateway di dati strategico che orchestra l'utilizzo di tutti i dati dell'IA. Invece di gestire pipeline separate per le diverse iniziative di IA, è possibile creare un unico punto di accesso controllato che serve i modelli di ML tradizionali, le applicazioni di IA generativa e i flussi di lavoro ibridi avanzati.
L'impatto aziendale è trasformativo.
- Innovazione più rapida: i data scientist scoprono e riutilizzano le funzionalità nei progetti invece di ricostruirle da zero, riducendo il tempi di distribuzione.
- Governance rafforzata: punto di controllo unico per policy di accesso ai dati, audit trail e requisiti di conformità in tutte le iniziative di IA.
- Economia migliore: l'infrastruttura condivisa e le risorse riutilizzabili riducono i costi per progetto e migliorano la qualità.
- Flessibilità strategica: l'architettura indipendente dalla piattaforma si adatta all'evoluzione dello stack tecnologico, preservando la capacità di innovazione.
Mentre l'IA diventa fondamentale per le operazioni aziendali, i primi utenti che adottano un'infrastruttura dati vendor-neutral ottengono un vantaggio competitivo sostenibile in termini di velocità di innovazione ed eccellenza operativa.
Conclusione: crea una base di dati per l'IA pensata per raggiungere obiettivi
La funzionalità del feature store di Red Hat OpenShift AI non rappresenta soltanto una soluzione per la gestione delle funzionalità: è la piattaforma per la creazione di un ecosistema di dati di IA indipendente dal fornitore, che aiuta ad accelerare l'innovazione, ottimizzare le operazioni e mantenere la flessibilità strategica.
La tua strategia per i dati è alla base del futuro dell'IA: costruisci una base che cresca di pari passo con le capacità della tua azienda, preservando la flessibilità necessaria per innovare.
Inizia subito
Scopri quali vantaggi il feature store può offrire alla tua azienda?
- Inizia una versione di prova: Prova Red Hat AI
- Prova gli esempi di Feast: Demo e tutorial della community
- Intraprendi il percorso verso l'IA con Red Hat: AI Consulting Services
- Contatta il team: jzarecki@redhat.com
- Esplora il codice: Feast GitHub Repository
- Scopri di più: Documentazione di OpenShift AI
Risorsa
L'adattabilità enterprise: predisporsi all'IA per essere pronti a un'innovazione radicale
Sugli autori
Jonathan Zarecki is Principal Product Manager for AI data infrastructure at Red Hat, focusing on vendor-neutral solutions that accelerate enterprise AI innovation. He leads product strategy for feature stores, and enterprise AI data management within the Red Hat AI portfolio. Prior to Red Hat, Jonathan was a Co-founder & CPO at Jounce (acquired by Red Hat), where he specialized in MLOps platforms and enterprise AI deployment strategies.
Francisco has spent over a decade working in AI/ML, software, and fintech at organizations like AIG, Goldman Sachs, Affirm, and Red Hat in roles spanning software, data engineering, credit, fraud, data science, and machine learning. He holds graduate degrees in Economics & Statistics and Data Science & Machine Learning from Columbia University in the City of New York and Clemson University. He is a maintainer for Feast, the open source feature store and a Steering Committee member for Kubeflow, the open source ecosystem of Kubernetes components for AI/ML.
Seasoned Software and Security Engineering professional.
Primary interests are AI/ML, Security, Linux, Malware.
Loves working on the command-line.
Altri risultati simili a questo
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud