Ne gaspillez plus votre budget sur des processeurs graphiques (GPU) inactifs. Découvrez comment mettre en œuvre un système d'allocation dynamique, une architecture multi-client et une mise à l'échelle automatique efficace pour vos charges de travail d'IA.
Importance de l'approche GPUaaS sur Red Hat OpenShift AI
Les investissements massifs dans l'IA soulèvent des préoccupations majeures autour du coût du matériel spécialisé. Déjà chers, les GPU et les accélérateurs inutilisés ou inactifs entraînent un gaspillage du budget et compliquent la mise à l'échelle des projets d'IA. Le modèle GPUaaS (GPU-as-a-Service) résout ce problème en optimisant le retour sur investissement (ROI) du matériel.
Basée sur Kubernetes, la plateforme Red Hat OpenShift AI peut servir à mettre en œuvre une solution GPUaaS multi-utilisateur. Après avoir provisionné le matériel, il faut encore prévoir un système supplémentaire d'allocation dynamique en fonction de la demande des charges de travail afin de récupérer plus rapidement les GPU et de réduire ainsi les temps d'inactivité.
Le modèle GPUaaS nécessite également une architecture multi-client qui rend indispensables les outils avancés de mise en file d'attente, tels que Kueue (Kubernetes Elastic Unit Execution). Celui-ci partitionne les ressources partagées et met en place l'architecture multi-client à l'aide de quotas, afin de garantir un accès juste et prévisible pour plusieurs équipes et projets. Une fois cette gouvernance en place, le principal défi consiste à créer un pipeline de mise à l'échelle automatique pour les charges de travail d'IA.
Intégration et mise à l'échelle automatique des charges de travail d'IA
L'objectif d'une plateforme GPUaaS est d'intégrer les frameworks d'IA les plus utilisés et de mettre automatiquement à l'échelle les ressources en fonction de la demande liée aux charges de travail. La solution OpenShift AI simplifie le déploiement des frameworks d'IA courants.
Ces charges de travail sont regroupées dans trois grandes catégories, toutes prises en charge par Kueue :
- Inférence : les frameworks comme KServe et vLLM gèrent efficacement la distribution des modèles, en particulier les grands modèles de langage.
- Entraînement (distribué) : les outils comme KubeFlow Training et KubeRay gèrent les tâches d'entraînement complexes et distribuées sur plusieurs nœuds.
- Science des données interactive : les workbenches (des environnements basés sur des notebooks pour les projets de science des données dans OpenShift AI) s'intègrent également à Kueue, de sorte que les notebooks sont lancés uniquement lorsque des ressources sont disponibles, réduisant ainsi le gaspillage de ressources.
Gérer les files d'attente avec Kueue
Dans un cluster d'IA multi-client, le principal défi est de gérer le flux de demandes de tâches GPU. C'est précisément le rôle de l'outil Kueue. Ce système assure la mise en file d'attente et la gestion par lots des tâches qui demandent une grande puissance de calcul.
Au lieu d'écarter immédiatement une demande de ressource lorsqu'un cluster est momentanément saturé, Kueue crée et gère une liste d'attente de manière intelligente. Cette capacité permet de préserver l'équité et l'efficacité, ainsi que d'éviter le rejet arbitraire des demandes et la monopolisation des ressources.
Mettre à l'échelle automatiquement et efficacement les ressources avec KEDA
Les outils Kueue et KEDA (Kubernetes Event-driven Autoscaling) s'associent pour optimiser l'utilisation des ressources en automatisant la mise à l'échelle.
Augmentation automatisée : KEDA surveille les indicateurs de mesure de Kueue, en particulier la longueur de la file d'attente des tâches GPU. En observant ce backlog, KEDA peut lancer de manière proactive l'ajout de nœuds GPU. Ainsi, les nouvelles ressources sont provisionnées avant toute surcharge de la capacité actuelle, ce qui augmente la disponibilité et améliore la rentabilité. Cette intégration transforme la file d'attente de Kueue en signal essentiel de mise à l'échelle, avec à la clé une gestion des ressources proactive et axée sur les demandes.
Réduction automatisée : KEDA facilite le lancement automatique des quotas en les récupérant auprès des charges de travail inactives. Lorsqu'une charge de travail (comme RayCluster) termine sa tâche sans être supprimée, un indicateur de mesure personnalisé (exposé via Prometheus ou un système similaire) signale son état inactif. KEDA surveille cette inactivité et utilise une ressource ScaledObject pour déclencher l'outil de mise à l'échelle automatique et éliminer tous les réplicas des composants de calcul de la charge de travail inactive. Les coûts d'exploitation sont ainsi considérablement réduits.
Des méthodes similaires peuvent être appliquées aux clusters d'inférence, en utilisant KEDA pour retirer tous les composants KServe pendant les périodes d'inactivité. La réduction des composants de calcul libère des ressources de nœud sous-jacentes. L'objet Kueue Workload et son quota réservé sont conservés, ce qui permet aux équipes de garder leur réservation de quota pour la tâche suivante sans avoir à créer une file d'attente entière, et de gaspiller moins de ressources de calcul inactives et coûteuses.
Optimisation basée sur l'observabilité
Pour améliorer l'efficacité et optimiser le ROI d'une plateforme GPUaaS, il faut mettre en place une surveillance continue. Les équipes d'administration doivent suivre de près l'intégrité, la température et les taux d'utilisation des GPU.
La pile Prometheus/Grafana intégrée à OpenShift AI permet de créer des tableaux de bord personnalisés pour surveiller l'utilisation des GPU par client, par projet et par GPU. Ces indicateurs de mesure alimentent le système et aident à affiner les quotas de GPU, à ajuster les politiques de partage équitable appliquées par Kueue et à obtenir un ROI maximal.
Conclusion
L'approche GPUaaS sur OpenShift AI offre des avantages métier directs. L'allocation dynamique des GPU réduit les coûts, l'architecture multi-client liée aux files d'attente et aux quotas de Kueue améliore la gouvernance, tandis que la mise à l'échelle automatique intégrée de toutes les charges de travail d'IA augmente l'évolutivité.
Red Hat OpenShift AI fournit une solution d'entreprise qui transforme le matériel GPU coûteux et souvent sous-utilisé en une plateforme GPUaaS multi-client hautement efficace. Pour en savoir plus, consultez la page sur OpenShift AI.
Ressource
L'entreprise adaptable : quand s'adapter à l'IA signifie s'adapter aux changements
À propos des auteurs
Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.
Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.
Plus de résultats similaires
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud