La inteligencia artificial empresarial está evolucionando más allá de los modelos individuales para convertirse en ecosistemas de datos unificados.
A medida que las organizaciones escalan sus iniciativas de inteligencia artificial, surge una oportunidad interesante: construir una puerta de enlace de datos unificada que conecte cada paso de tu canal de inteligencia artificial, desde los datos sin procesar hasta el procesamiento informático, pasando por los catálogos de funciones y el servicio de modelos. No se trata solo de gestionar la complejidad, sino de crear una base que ayude a acelerar la innovación.
Un desafío recurrente al que se enfrentan las organizaciones es que los científicos de datos terminan reconstruyendo las mismas funciones una y otra vez. Un equipo calcula el valor del tiempo de vida del cliente para un modelo de predicción de abandono, y 3 meses después, otro equipo necesita el mismo cálculo para un motor de recomendación, pero no saben que ya existe. Así que lo reconstruyen desde cero, introduciendo inconsistencias y perdiendo semanas de tiempo de desarrollo.
Este es el problema de la reutilización de funciones, y le está costando a las organizaciones tanto tiempo como calidad.
¿Qué es un feature store?
Un feature store es una plataforma centralizada que gestiona, almacena y sirve funciones de machine learning, las variables de entrada que los modelos utilizan para hacer predicciones. Piense en ello como un catálogo de datos diseñado específicamente para la inteligencia artificial. En lugar de buscar documentación o preguntar a tus colegas si alguien ha calculado antes la velocidad de compra mensual, los científicos de datos pueden descubrir, reutilizar y compartir funciones en todos sus proyectos de machine learning (ML).
Sin embargo, un feature store hace más que solo catalogar funciones. Resuelve tres problemas críticos:
- Reutilización de funciones: Permite a los desarrolladores descubrir y reutilizar las funciones existentes en lugar de reconstruirlas desde cero.
- Coherencia entre el entrenamiento y el servicio: Ayuda a garantizar la coherencia, de modo que los modelos utilicen cálculos de funciones idénticos en el entrenamiento y la producción (lo que elimina el temido problema de "funcionó en mi notebook").
- Simplicidad operativa: Permite la gestión de los canales de funciones, el control de versiones y la monitorización a través de una única interfaz.
Red Hat OpenShift AI incluye la capacidad de feature store integrada, basada en el proyecto open source Feast, como un componente nativo de la plataforma. No se requiere una instalación independiente. Está disponible y se puede habilitar cuando tus equipos estén listos para adoptar prácticas de desarrollo que prioricen las funciones.
La oportunidad de la puerta de enlace de datos unificada
Feast puede servir como una capa de acceso única y coherente para todos tus canales de datos de inteligencia artificial. Feast se basa en una base open source probada con más de 6500 estrellas en GitHub y más de 16 millones de descargas. Conecta fuentes de datos, motores informáticos (Ray/Spark) y orquestadores (KFP/Airflow) en un catálogo unificado, para que las organizaciones puedan construir datos neutrales con respecto al proveedor.
El front-end del pipeline: simplificación de flujos de trabajo complejos de datos de inteligencia artificial
El feature store de Red Hat OpenShift AI respalda este enfoque unificado:
- Base neutral con respecto al proveedor: Se integra con Spark, Ray, Milvus, Elastic, Postgres y muchas otras bases de datos populares: tú eliges tu infraestructura.
- Visibilidad completa del pipeline: Desde los datos sin procesar, pasando por la ingeniería de funciones, hasta la inferencia de modelos
- Libertad de implementación híbrida: Se ejecuta de forma consistente en entornos locales, de nube y perimetrales.
- Innovación open source: Creado sobre la base probada de Feast con más de 16 millones de descargas, utilizado y contribuido por muchas empresas, incluidas Shopify, NVIDIA, Walmart y más.
Este enfoque también resuelve desafíos empresariales reales. Las agencias federales pueden procesar datos confidenciales de forma local mientras aprovechan la computación en la nube. Las instituciones financieras pueden cumplir los requisitos de conformidad manteniendo la flexibilidad operativa. Las empresas de fabricación pueden procesar datos en el borde mientras se conectan a análisis centralizados.
La arquitectura de 3 capas: datos, computación y catálogo
El enfoque de Red Hat para la gestión de datos de inteligencia artificial se basa en una idea simple pero poderosa: las mejores plataformas empresariales conectan la infraestructura existente en lugar de reemplazarla. Te mostraremos cómo funciona esto en la práctica a través de la historia de una empresa de servicios financieros que adopta feature stores.
Capa 1: Fuentes de datos: encuentra tus datos donde residen
Considera un banco grande que implementa la detección de fraudes. Sus datos de clientes residen en una base de datos Oracle local (requisitos de cumplimiento normativo), los flujos de transacciones fluyen a través de Kafka en AWS (procesamiento moderno en tiempo real) y los patrones históricos se encuentran en un almacén de datos Snowflake (inversión del equipo de análisis de hace 3 años).
Las soluciones tradicionales de feature store obligan a elegir: migrar todo a la plataforma o no usar el feature store en absoluto. Esto crea una situación muy difícil: la base de datos Oracle no se puede mover debido al cumplimiento normativo, el equipo no abandonará su inversión en Snowflake y los pipelines de Kafka en tiempo real son críticos para las operaciones.
El feature store de Red Hat resuelve esto a través de la conectividad de datos universal:
- Conéctate desde cualquier lugar: Las funciones pueden extraerse de bases de datos locales, almacenamiento en la nube, sensores perimetrales y plataformas de streaming, todo en la misma definición de función.
- Preserva las inversiones: El equipo de detección de fraudes continúa utilizando su infraestructura existente sin costes de migración ni interrupciones operativas.
- Mantén el cumplimiento normativo: Los datos confidenciales de los clientes permanecen en la base de datos local que cumple con las normas, mientras que el feature store orquesta el acceso gobernado.
El equipo de detección de fraudes del banco define sus funciones una vez ("customer_transaction_velocity_30d", "account_risk_score", "merchant_category_pattern"), y el feature store gestiona la complejidad de extraer de Oracle, unirse a los flujos de Kafka y enriquecer con el historial de Snowflake. Los analistas de datos nunca escriben otra declaración JOIN para unir estas fuentes.
Capa 2: Procesamiento informático: flexibilidad para cada carga de trabajo
Ahora hablemos de cómo se calculan esas funciones. El equipo de detección de fraudes necesita procesar miles de millones de transacciones diariamente, pero las diferentes funciones tienen diferentes necesidades computacionales:
- Las agregaciones simples (recuentos de transacciones) se ejecutan de manera eficiente en SQL.
- La detección de patrones complejos (anomalías de comportamiento) requiere Spark para el procesamiento distribuido.
- La puntuación de riesgo en tiempo real (latencia inferior a un segundo) necesita computación de streaming ligera.
La mayoría de las plataformas de funciones te hacen depender de su motor de computación preferido. Si has invertido en experiencia e infraestructura de Spark, se te dice que lo abandones y aprendas su sistema propietario. Si necesitas Ray para transformaciones pesadas de ML, no tienes suerte.
El feature store de Red Hat proporciona flexibilidad computacional:
- Motores neutrales con respecto al proveedor: Soporte nativo para Ray y Spark, además de la capacidad de traer tu propio framework de computación (Spark, Ray, etc.)
- Estándares abiertos: Las funciones se definen utilizando Python y SQL estándar, no DSL propietarios que crean dependencia del proveedor.
El equipo de detección de fraudes ejecuta sus agregaciones simples en Postgres (ya implementado), ejecuta modelos de comportamiento complejos en su clúster Spark existente (preservando años de inversión en infraestructura) e implementa motores de puntuación en tiempo real en las sucursales para la detección instantánea de fraudes. Mismas definiciones de funciones, diferentes estrategias computacionales basadas en los requisitos empresariales.
Capa 3: Catálogo unificado: tu única interfaz para todas las funciones
Aquí es donde empiezan los desafíos. El equipo de detección de fraudes ha definido más de 50 funciones que extraen de 3 fuentes de datos y se ejecutan en 2 plataformas computacionales. Sin un catálogo unificado, esto es lo que sucede:
- Los analistas de datos pierden horas buscando en repositorios de Git, notebooks de Jupyter y el conocimiento del equipo tratando de averiguar si alguien ya ha construido una calculadora mensual de velocidad de transacciones.
- Cuando encuentran una función, descubren que es incompatible: diferentes nombres de columnas, diferentes marcas de tiempo, diferentes ventanas de agregación.
- Los ingenieros de producción luchan por entender las dependencias de las funciones: ¿qué funciones dependen de qué fuentes de datos y trabajos computacionales?
- Los responsables de cumplimiento normativo no pueden responder a la pregunta: "¿quién tiene acceso a las funciones confidenciales de los clientes?"
El catálogo unificado (Feast) resuelve todo esto:
- Interfaz única: Los científicos de datos descubren las 50 funciones a través de 1 interfaz de búsqueda, sin buscar en repositorios ni preguntar en Slack.
- Visibilidad completa del pipeline: Cada función muestra exactamente de dónde provienen los datos, qué computación requiere y qué modelos la consumen.
- Gobernanza lista para la empresa: El control de acceso basado en roles (RBAC) integrado significa que solo los equipos autorizados tienen acceso a las funciones confidenciales, los registros de auditoría completos rastrean cada acceso y los flujos de trabajo de aprobación aplican los estándares de implementación de producción.
Así es como se ve esto para 2 usuarios diferentes:
Flujo de trabajo del administrador (equipo de plataforma):
- Habilitar el feature store: En el panel de OpenShift AI, navega a la configuración del feature store y habilita el componente (integrado, sin instalación independiente).
- Configurar permisos: Define qué equipos de analistas de datos pueden crear funciones, cuáles solo pueden consumirlas y a qué fuentes de datos puede acceder cada equipo.
- Monitorizar operaciones: El panel muestra el estado del pipeline de funciones, la utilización de recursos y qué tan recientes son los datos.
Flujo de trabajo del analista de datos:
- Descubrir funciones: Busca en el catálogo de funciones "transaction"; encuentra 12 funciones existentes, incluida "customer_transaction_velocity_30d", construida por el equipo de fraude el trimestre pasado.
- Entender el contexto: Haz clic en la función para ver las fuentes de datos (transacciones de Kafka + clientes de Oracle), los requisitos computacionales (trabajo de Spark, se ejecuta diariamente) y el código de uso de ejemplo.
- Reutilizar en un nuevo modelo: Copia la definición de la función en su proyecto de motor de recomendación y obtén la misma lógica de cálculo y consistencia entre la detección de fraude y las recomendaciones.
- Iterar rápidamente: Inicia Jupyter notebooks preintegrados directamente desde el catálogo de funciones con la autenticación ya configurada.
El resultado: lo que solía llevar 3 días de investigación, 5 conversaciones de Slack y depuración de cálculos inconsistentes ahora lleva 10 minutos. Y cuando el equipo de fraude mejora su cálculo de velocidad de transacción, todos los modelos downstream se benefician automáticamente de la mejora.
Este es el valor compuesto de un catálogo unificado: cada función creada hace que el desarrollo de inteligencia artificial de toda la organización sea más rápido, más confiable y más consistente.
El impacto empresarial: de herramienta táctica a plataforma estratégica
Esta arquitectura de 3 capas transforma los feature stores de un componente táctico en una puerta de enlace de datos estratégica que orquesta todo el consumo de datos de inteligencia artificial. En lugar de gestionar pipelines separados para diferentes iniciativas de inteligencia artificial, estableces un único punto de entrada gobernado que sirve a modelos de machine learning tradicionales, aplicaciones de inteligencia artificial generativa y flujos de trabajo híbridos avanzados.
El impacto empresarial es transformador:
- Innovación más rápida: Los analistas de datos descubren y reutilizan funciones en todos los proyectos en lugar de reconstruir desde cero, reduciendo el tiempo de comercialización.
- Gobernanza más sólida: Un único punto de control para las políticas de acceso a datos, los registros de auditoría y los requisitos de cumplimiento en todas las iniciativas de inteligencia artificial.
- Mejor economía: La infraestructura compartida y los activos reutilizables reducen los costes por proyecto al tiempo que mejoran la calidad.
- Flexibilidad estratégica: Arquitectura independiente de la plataforma que se adapta a medida que evoluciona tu stack tecnológico, preservando tu capacidad de innovar.
A medida que la inteligencia artificial se vuelve fundamental para las operaciones comerciales, los primeros en adoptar una infraestructura de datos neutral con respecto al proveedor obtienen una ventaja competitiva sostenible en la velocidad de innovación y la excelencia operativa.
Conclusión: Construye tu base de datos de inteligencia artificial para el éxito
La capacidad de feature store de Red Hat OpenShift AI representa más que una solución de gestión de funciones: es tu plataforma para construir un ecosistema de datos de inteligencia artificial neutral con respecto al proveedor que ayuda a acelerar la innovación, optimizar las operaciones y preservar la flexibilidad estratégica.
Tu estrategia de datos permite tu futuro de inteligencia artificial: construye sobre una base que crece con las capacidades de tu organización al tiempo que preserva la flexibilidad para innovar.
Empieza ya
¿Listo para explorar el enfoque de feature store para tu empresa?
- Comienza una prueba: Prueba del producto Red Hat AI
- Prueba ejemplos de Feast: Demos y tutoriales de la comunidad
- Recorre tu proceso de adopción de la inteligencia artificial con Red Hat: Servicios de consultoría de inteligencia artificial
- Ponte en contacto con el equipo: jzarecki@redhat.com
- Explora el código: Feast GitHub Repository
- Más información: Documentación de OpenShift AI
Recurso
La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos
Sobre los autores
Jonathan Zarecki is Principal Product Manager for AI data infrastructure at Red Hat, focusing on vendor-neutral solutions that accelerate enterprise AI innovation. He leads product strategy for feature stores, and enterprise AI data management within the Red Hat AI portfolio. Prior to Red Hat, Jonathan was a Co-founder & CPO at Jounce (acquired by Red Hat), where he specialized in MLOps platforms and enterprise AI deployment strategies.
Francisco has spent over a decade working in AI/ML, software, and fintech at organizations like AIG, Goldman Sachs, Affirm, and Red Hat in roles spanning software, data engineering, credit, fraud, data science, and machine learning. He holds graduate degrees in Economics & Statistics and Data Science & Machine Learning from Columbia University in the City of New York and Clemson University. He is a maintainer for Feast, the open source feature store and a Steering Committee member for Kubeflow, the open source ecosystem of Kubernetes components for AI/ML.
Seasoned Software and Security Engineering professional.
Primary interests are AI/ML, Security, Linux, Malware.
Loves working on the command-line.
Más como éste
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube