Deja de malgastar el presupuesto con GPU inactivas Aprende a implementar la asignación dinámica, la arquitectura multitenant y el ajuste automático efectivo para tus cargas de trabajo de inteligencia artificial.
La necesidad de GPUaaS en Red Hat OpenShift AI
Para las empresas que invierten mucho en inteligencia artificial, el costo del hardware especializado es una de las principales preocupaciones. Las GPU y los aceleradores son costosos, y si ese hardware no se utiliza y permanece inactivo, se desperdicia mucho el presupuesto y se dificulta el ajuste de tus proyectos de inteligencia artificial. Una solución es adoptar GPU como servicio (GPUaaS), un modelo operativo diseñado para ayudar a maximizar el retorno sobre la inversión (ROI) de tu hardware.
Red Hat OpenShift AI es una plataforma basada en Kubernetes que se puede utilizar para implementar una solución de GPUaaS multiusuario. Si bien la preparación del hardware es el primer paso, lograr un verdadero GPUaaS requiere una asignación dinámica adicional en función de la demanda de la carga de trabajo, de modo que las GPU se recuperen más rápido y se reduzca el tiempo de inactividad.
La GPUaaS también requiere la arquitectura multitenant. Aquí es donde las herramientas avanzadas de gestión de colas, como Kueue (Kubernetes Elastic Unit Execution), se vuelven indispensables. Kueue divide los recursos compartidos y aplica la arquitectura multitenant a través de cuotas, lo que garantiza el acceso justo y predecible para varios equipos y proyectos. Una vez que se implementa este control, el desafío principal pasa a ser la creación de un canal de ajuste automático para las cargas de trabajo de inteligencia artificial.
Integración y ajuste automático de las cargas de trabajo de inteligencia artificial
El objetivo de una plataforma GPUaaS es integrar los marcos de inteligencia artificial conocidos y ajustar los recursos automáticamente en función de la demanda de la carga de trabajo. OpenShift AI simplifica la implementación de marcos de inteligencia artificial populares.
Estas cargas de trabajo se dividen en tres categorías principales, todas compatibles con Kueue:
- Inferencia los marcos como KServe y vLLM gestionan los modelos de distribución de manera eficiente, en especial los modelos de lenguaje de gran tamaño (LLM).
- Training (distribuido) herramientas como KubeFlow Training y KubeRay gestionan tareas de entrenamiento distribuidas complejas de varios nodos.
- Análisis de datos interactivo: los Workbenches, que son la experiencia del notebook de análisis de datos de OpenShift AI, también se integran con Kueue, por lo que los notebooks solo se inician cuando los recursos están disponibles, lo que reduce el desperdicio de recursos.
Gestión de colas con Kueue
El desafío principal en un clúster de inteligencia artificial multitenant es gestionar la avalancha de solicitudes de trabajo de la GPU. Esta es precisamente la función de Kueue. Kueue ofrece funciones esenciales de gestión de lotes y colas para estas tareas que consumen muchos recursos informáticos.
En lugar de fallar inmediatamente en una solicitud de recursos cuando un clúster está saturado momentáneamente, Kueue mantiene y gestiona una lista de espera de manera inteligente. Esta función es fundamental para mantener la equidad y la eficiencia, de modo que las solicitudes no se rechacen arbitrariamente y se evite la monopolización de los recursos.
Ajuste automático efectivo con KEDA
Kueue y KEDA (el ajuste automático basado en eventos de Kubernetes) trabajan en conjunto para optimizar el uso de los recursos a través de la ampliación y la reducción automatizadas.
Ampliación automatizada KEDA supervisa los indicadores de Kueue, específicamente la longitud de la cola de tareas de la GPU. Al observar este trabajo pendiente, KEDA puede iniciar la ampliación de nuevos nodos de GPU de manera anticipada. Esto significa que los recursos nuevos se implementan antes de que la capacidad actual se vea abrumada por la demanda, lo que genera una alta disponibilidad y una mayor rentabilidad. Esta integración transforma la cola de Kueue en una señal fundamental de ajuste de la capacidad, lo que permite la gestión preventiva de los recursos en función de la demanda.
Reducción automática de la capacidad KEDA facilita la liberación automática de cuotas al reclamarlas de las cargas de trabajo inactivas. Cuando una carga de trabajo (por ejemplo, un RayCluster) finaliza su tarea pero no se elimina, una métrica personalizada (que se expone a través de Prometheus o similar) informa su estado de inactividad. KEDA supervisa este indicador de inactividad y, a través de ScaledObject, activa el adaptador automático para reducir los elementos de trabajo de la carga de trabajo inactiva a cero réplicas. Esto reduce considerablemente los costos operativos.
Se pueden aplicar métodos similares a los clústeres de inferencia, utilizando KEDA para ajustar los elementos de KServe a cero durante los períodos de inactividad. La reducción de los elementos de trabajo libera los recursos subyacentes del nodo. El objeto Kueue Workload y su cuota reservada permanecen, por lo que los equipos conservan su reserva de cuota para el siguiente trabajo sin un proceso completo de puesta en cola, y al mismo tiempo reducen el desperdicio de recursos informáticos costosos e inactivos.
Optimización basada en la observabilidad
La supervisión permanente es fundamental para mejorar la eficiencia y maximizar el ROI de tu GPUaaS. Los administradores deben realizar un seguimiento permanente del estado, la temperatura y las tasas de uso de la GPU.
La stack integrada de Prometheus/Grafana de OpenShift AI permite que los administradores creen paneles personalizados para realizar un seguimiento del uso de la GPU, desglosados por tenant, proyecto y GPU. Estos indicadores se retroalimentan al sistema, lo cual permite que los administradores mejoren las cuotas de GPU, ajusten las políticas de participación equitativa que aplica Kueue y confirmen la maximización del ROI.
Conclusión
GPUaaS en OpenShift AI ofrece beneficios empresariales directos. Obtendrás ahorros de costos gracias a la asignación dinámica de GPU, la mejora del control a través de la arquitectura multitenancy que aplican las colas y las cuotas de Kueue y la mejora de la capacidad de ajuste a través del ajuste automático integrado para todas tus cargas de trabajo de inteligencia artificial.
Red Hat OpenShift AI ofrece la solución empresarial que transforma el hardware de GPU costoso y, a menudo, desaprovechado, en una plataforma de GPUaaS multitenant y de alta eficiencia. Consulta la página OpenShift AI para obtener más información.
Recurso
La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos
Sobre los autores
Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.
Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.
Más como éste
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube