GPU-as-a-Service pour l'IA à grande échelle : des stratégies concrètes avec Red Hat OpenShift AI

10 novembre 2025Ana Biazetti, Lindani Phiri4 minutes (temps de lecture)

Ne gaspillez plus votre budget sur des processeurs graphiques (GPU) inactifs. Découvrez comment mettre en œuvre un système d'allocation dynamique, une architecture multi-client et une mise à l'échelle automatique efficace pour vos charges de travail d'IA.

Importance de l'approche GPUaaS sur Red Hat OpenShift AI

Les investissements massifs dans l'IA soulèvent des préoccupations majeures autour du coût du matériel spécialisé. Déjà chers, les GPU et les accélérateurs inutilisés ou inactifs entraînent un gaspillage du budget et compliquent la mise à l'échelle des projets d'IA. Le modèle GPUaaS (GPU-as-a-Service) résout ce problème en optimisant le retour sur investissement (ROI) du matériel.

Basée sur Kubernetes, la plateforme Red Hat OpenShift AI peut servir à mettre en œuvre une solution GPUaaS multi-utilisateur. Après avoir provisionné le matériel, il faut encore prévoir un système supplémentaire d'allocation dynamique en fonction de la demande des charges de travail afin de récupérer plus rapidement les GPU et de réduire ainsi les temps d'inactivité.

Le modèle GPUaaS nécessite également une architecture multi-client qui rend indispensables les outils avancés de mise en file d'attente, tels que Kueue (Kubernetes Elastic Unit Execution). Celui-ci partitionne les ressources partagées et met en place l'architecture multi-client à l'aide de quotas, afin de garantir un accès juste et prévisible pour plusieurs équipes et projets. Une fois cette gouvernance en place, le principal défi consiste à créer un pipeline de mise à l'échelle automatique pour les charges de travail d'IA.

Intégration et mise à l'échelle automatique des charges de travail d'IA

L'objectif d'une plateforme GPUaaS est d'intégrer les frameworks d'IA les plus utilisés et de mettre automatiquement à l'échelle les ressources en fonction de la demande liée aux charges de travail. La solution OpenShift AI simplifie le déploiement des frameworks d'IA courants.

Ces charges de travail sont regroupées dans trois grandes catégories, toutes prises en charge par Kueue :

Inférence : les frameworks comme KServe et vLLM gèrent efficacement la distribution des modèles, en particulier les grands modèles de langage.
Entraînement (distribué) : les outils comme KubeFlow Training et KubeRay gèrent les tâches d'entraînement complexes et distribuées sur plusieurs nœuds.
Science des données interactive : les workbenches (des environnements basés sur des notebooks pour les projets de science des données dans OpenShift AI) s'intègrent également à Kueue, de sorte que les notebooks sont lancés uniquement lorsque des ressources sont disponibles, réduisant ainsi le gaspillage de ressources.

Gérer les files d'attente avec Kueue

Dans un cluster d'IA multi-client, le principal défi est de gérer le flux de demandes de tâches GPU. C'est précisément le rôle de l'outil Kueue. Ce système assure la mise en file d'attente et la gestion par lots des tâches qui demandent une grande puissance de calcul.

Au lieu d'écarter immédiatement une demande de ressource lorsqu'un cluster est momentanément saturé, Kueue crée et gère une liste d'attente de manière intelligente. Cette capacité permet de préserver l'équité et l'efficacité, ainsi que d'éviter le rejet arbitraire des demandes et la monopolisation des ressources.

Mettre à l'échelle automatiquement et efficacement les ressources avec KEDA

Les outils Kueue et KEDA (Kubernetes Event-driven Autoscaling) s'associent pour optimiser l'utilisation des ressources en automatisant la mise à l'échelle.

Augmentation automatisée : KEDA surveille les indicateurs de mesure de Kueue, en particulier la longueur de la file d'attente des tâches GPU. En observant ce backlog, KEDA peut lancer de manière proactive l'ajout de nœuds GPU. Ainsi, les nouvelles ressources sont provisionnées avant toute surcharge de la capacité actuelle, ce qui augmente la disponibilité et améliore la rentabilité. Cette intégration transforme la file d'attente de Kueue en signal essentiel de mise à l'échelle, avec à la clé une gestion des ressources proactive et axée sur les demandes.

Réduction automatisée : KEDA facilite le lancement automatique des quotas en les récupérant auprès des charges de travail inactives. Lorsqu'une charge de travail (comme RayCluster) termine sa tâche sans être supprimée, un indicateur de mesure personnalisé (exposé via Prometheus ou un système similaire) signale son état inactif. KEDA surveille cette inactivité et utilise une ressource ScaledObject pour déclencher l'outil de mise à l'échelle automatique et éliminer tous les réplicas des composants de calcul de la charge de travail inactive. Les coûts d'exploitation sont ainsi considérablement réduits.

Des méthodes similaires peuvent être appliquées aux clusters d'inférence, en utilisant KEDA pour retirer tous les composants KServe pendant les périodes d'inactivité. La réduction des composants de calcul libère des ressources de nœud sous-jacentes. L'objet Kueue Workload et son quota réservé sont conservés, ce qui permet aux équipes de garder leur réservation de quota pour la tâche suivante sans avoir à créer une file d'attente entière, et de gaspiller moins de ressources de calcul inactives et coûteuses.

Optimisation basée sur l'observabilité

Pour améliorer l'efficacité et optimiser le ROI d'une plateforme GPUaaS, il faut mettre en place une surveillance continue. Les équipes d'administration doivent suivre de près l'intégrité, la température et les taux d'utilisation des GPU.

La pile Prometheus/Grafana intégrée à OpenShift AI permet de créer des tableaux de bord personnalisés pour surveiller l'utilisation des GPU par client, par projet et par GPU. Ces indicateurs de mesure alimentent le système et aident à affiner les quotas de GPU, à ajuster les politiques de partage équitable appliquées par Kueue et à obtenir un ROI maximal.

Conclusion

L'approche GPUaaS sur OpenShift AI offre des avantages métier directs. L'allocation dynamique des GPU réduit les coûts, l'architecture multi-client liée aux files d'attente et aux quotas de Kueue améliore la gouvernance, tandis que la mise à l'échelle automatique intégrée de toutes les charges de travail d'IA augmente l'évolutivité.

Red Hat OpenShift AI fournit une solution d'entreprise qui transforme le matériel GPU coûteux et souvent sous-utilisé en une plateforme GPUaaS multi-client hautement efficace. Pour en savoir plus, consultez la page sur OpenShift AI.

À propos des auteurs

Ana Biazetti

Senior Principal Engineer, Red Hat AI

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Read full bio