Potenciación del aprendizaje federado con la gestión de multiclústeres

16 de enero de 2026Andreas Spanner, Meng Yan 6 minutos de lectura

La era moderna del entrenamiento de la inteligencia artificial, en especial para los modelos de gran tamaño, enfrenta exigencias simultáneas de escalabilidad informática y privacidad estricta de los datos. El machine learning (ML) tradicional requiere la centralización de los datos de entrenamiento, lo que genera obstáculos y esfuerzos importantes en relación con la privacidad y la seguridad de los datos, y la eficiencia o el volumen de los datos.

Este desafío se agrava en las infraestructuras globales heterogéneas de los entornos multicloud, de nube híbrida y edge, por lo que las empresas deben entrenar los modelos con los conjuntos de datos distribuidos actuales y, al mismo tiempo, proteger la privacidad de los datos.

El aprendizaje federado (FL) aborda este desafío trasladando el entrenamiento del modelo a los datos. Los clústeres o los dispositivos remotos (colaboradores o clientes) entrenan los modelos de forma local con sus datos privados y solo comparten las actualizaciones de los modelos (no los datos sin procesar) con un servidor central (agregador). Esto ayuda a proteger la privacidad de los datos de manera integral. Este enfoque es fundamental para los casos en los que la privacidad o la carga de datos son importantes, como en el sector de la salud, el comercio minorista, la automatización industrial y los vehículos definidos por software (SDV) con sistemas avanzados de asistencia al conductor (ADAS) y funciones de conducción autónoma (AD), como la advertencia de salida de carril, el control de crucero adaptativo y la supervisión de la fatiga del conductor.

Para gestionar y organizar estas unidades informáticas distribuidas, utilizamos la definición de recursos personalizados (CRD) de aprendizaje federado de Open Cluster Management (OCM).

OCM: la base para las operaciones distribuidas

OCM es una plataforma de organización de multiclústeres de Kubernetes y un proyecto open source CNCF Sandbox project.

OCM emplea una arquitectura de tipo hub-spoke y utiliza un modelo basado en pull.

Clúster hub: actúa como el plano de control central (plano de control de OCM) responsable de la organización.
Clústeres gestionados (spoke): son clústeres remotos en los que se implementan las cargas de trabajo.

Los clústeres gestionados extraen su estado deseado y envían el estado de vuelta al hub. OCM proporciona API como ManifestWork y Placement para programar las cargas de trabajo. A continuación, veremos más detalles sobre la API de aprendizaje federado.

Ahora veremos por qué y cómo el diseño de gestión de clústeres distribuidos de OCM se alinea estrechamente con los requisitos de implementación y gestión de los colaboradores de FL.

Integración nativa: OCM como orquestador de FL

1. Adaptación de la arquitectura

La combinación de OCM y FL es eficaz debido a su congruencia estructural fundamental. OCM admite de forma nativa FL porque ambos sistemas comparten un diseño base idéntico: la arquitectura hub-spoke y un protocolo basado en pull.

Architecture and concepts Mapping OCM and FL

Componente de OCM	Componente de FL	Función
Plano de control del hub de OCM	Agregador/Servidor	Orquesta el estado y agrega las actualizaciones del modelo.
Clúster gestionado	Colaborador/Cliente	Extrae el estado deseado o el modelo global, entrena localmente y envía las actualizaciones.

2. Ubicación flexible para la selección de clientes multiactor

La principal ventaja operativa de OCM es su capacidad para automatizar la selección de clientes en configuraciones de FL aprovechando sus funciones flexibles de programación entre clústeres. Esta función utiliza la API Placement de OCM para implementar políticas sofisticadas que cumplen varios criterios, lo cual brinda eficiencia y cumplimiento de la privacidad al mismo tiempo.

La API Placement permite la selección integrada de clientes en función de los siguientes factores:

Ubicación de los datos (criterio de privacidad): las cargas de trabajo de FL se programan solo en los clústeres gestionados que afirman tener los datos privados necesarios.
Optimización de recursos (criterio de eficiencia): la estrategia de programación de OCM ofrece políticas flexibles que permiten la evaluación combinada de varios factores. Selecciona los clústeres no solo en función de la presencia de datos, sino también de los atributos anunciados, como la disponibilidad de CPU o memoria.

3. Comunicación segura entre colaborador y agregador mediante el registro de complementos de OCM

El add-on FL Collaborator se implementa en los clústeres gestionados y aprovecha el mecanismo de registro de complementos de OCM para establecer una comunicación cifrada y protegida con el agregador en el hub. Tras el registro, cada add-on de colaborador obtiene automáticamente los certificados del hub de OCM. Estos certificados autentican y cifran todas las actualizaciones de los modelos que se intercambian durante FL, lo que garantiza la confidencialidad, la integridad y la privacidad en varios clústeres.

Este proceso asigna de manera eficiente las tareas de entrenamiento de la inteligencia artificial solo a los clústeres con los recursos adecuados, lo que proporciona una selección de clientes integrada basada tanto en la ubicación de los datos como en la capacidad de los recursos.

El ciclo de vida del entrenamiento de FL: programación basada en OCM

Se desarrolló un controlador de Federated Learning exclusivo para gestionar el ciclo de vida del entrenamiento de FL en varios clústeres. El controlador utiliza las CRD para definir los flujos de trabajo, admite los tiempos de ejecución conocidos de FL, como Flower y OpenFL, y es extensible.

Workflow of FL operating under OCM management

El flujo de trabajo gestionado por OCM avanza a través de etapas definidas:

Pasos	Fase de OCM/FL	Descripción
0	Requisito previo	El complemento de aprendizaje federado está instalado. La aplicación de FL está disponible como un contenedor que se puede implementar en Kubernetes.
1	FederatedLearning CR	Se crea un recurso personalizado en el hub que define el marco (por ejemplo, flower), el número de rondas de entrenamiento (cada ronda es un ciclo completo en el que los clientes se entrenan localmente y devuelven las actualizaciones para su agregación), el número necesario de colaboradores de entrenamiento disponibles y la configuración de almacenamiento del modelo (por ejemplo, especificando una ruta de PersistentVolumeClaim [PVC]).
2, 3, 4	Espera y programación	El estado del recurso es “Waiting”. El servidor (agregador) se inicializa en el hub, y el controlador de OCM utiliza Placement para programar los clientes (colaboradores).
5, 6	En ejecución	El estado cambia a “Running”. Los clientes extraen el modelo global, entrenan el modelo localmente con datos privados y sincronizan las actualizaciones del modelo de vuelta al agregador de modelos. El parámetro de rondas de entrenamiento determina la frecuencia con la que se repite esta fase.
7	Completada	El estado es “Completed”. La validación se puede llevar a cabo mediante la implementación de Jupyter Notebooks para verificar el rendimiento del modelo con todo el conjunto de datos agregados (por ejemplo, confirmando que predice todos los dígitos del Instituto Nacional Modificado de Estándares y Tecnología [MNIST]).

Red Hat Advanced Cluster Management: control empresarial y valor operativo para entornos de FL

La arquitectura y las API principales que proporciona OCM sirven como base de Red Hat Advanced Cluster Management for Kubernetes. Red Hat Advanced Cluster Management permite gestionar el ciclo de vida de una plataforma de FL homogénea (Red Hat OpenShift) en un entorno de infraestructura heterogéneo. La ejecución del controlador de FL en Red Hat Advanced Cluster Management ofrece beneficios adicionales a los que ofrece OCM por sí solo. Red Hat Advanced Cluster Management ofrece visibilidad centralizada, gobernanza basada en políticas y gestión del ciclo de vida en entornos multiclúster, lo que mejora considerablemente la capacidad de gestión de los entornos distribuidos y de FL.

1. Observabilidad

Red Hat Advanced Cluster Management ofrece observabilidad unificada en los flujos de trabajo de FL distribuidos, lo que permite a los operadores supervisar el progreso del entrenamiento, el estado del clúster y la coordinación entre clústeres desde una interfaz única y coherente.

2. Conectividad y seguridad mejoradas

La CRD de FL admite la comunicación protegida entre el agregador y los clientes a través de canales habilitados para TLS. También ofrece opciones de red flexibles más allá de NodePort, incluidas LoadBalancer, Route y otros tipos de entrada, lo que proporciona una conectividad protegida y adaptable en entornos heterogéneos.

3. Integración integral del ciclo de vida de ML con Red Hat Advanced Cluster Management y Red Hat OpenShift AI

Al aprovechar Red Hat Advanced Cluster Management con OpenShift AI, las empresas pueden diseñar un flujo de trabajo de FL completo, desde la creación de prototipos de modelos y el entrenamiento distribuido hasta la validación y la implementación en producción, dentro de una plataforma unificada.

Conclusión

FL está transformando la inteligencia artificial al trasladar el entrenamiento de modelos directamente a los datos, lo que resuelve de manera efectiva la fricción entre la escala computacional, la transferencia de datos y los estrictos requisitos de privacidad. Aquí destacamos cómo Red Hat Advanced Cluster Management proporciona la orquestación, la protección y la observabilidad necesarias para gestionar entornos complejos de Kubernetes distribuidos.

Ponte en contacto con Red Hat hoy mismo para explorar cómo puedes impulsar tu empresa con el aprendizaje federado.

Sobre los autores

Andreas Spanner

Chief Architect Australia & New Zealand

Andreas Spanner leads Red Hat’s Cloud Strategy & Digital Transformation efforts across Australia and New Zealand. Spanner has worked on a wide range of initiatives across different industries in Europe, North America and APAC including full-scale ERP migrations, HR, finance and accounting, manufacturing, supply chain logistics transformations and scalable core banking strategies to support regional business growth strategies. He has an engineering degree from the University of Ravensburg, Germany.

Read full bio

Meng Yan

Senior Software Engineer

Meng Yan is a Senior Software Engineer at Red Hat, specializing in event-driven architectures for multi-cluster management at scale. His research interests focus on agentic AI systems and intelligent automation for software engineering, as well as AI/ML applications in distributed environments such as federated learning and multi-cluster inference.

Read full bio

Más como éste

Publicación en blog

Obtenga más información

Navegar por canal

Explore todos los canales