Diga adeus às GPUs ociosas. Aprenda a implementar a alocação dinâmica, multitenancy e escalabilidade automática com eficácia para cargas de trabalho de IA.

Por que o GPUaaS é essencial no Red Hat OpenShift AI?

O custo do hardware especializado é uma das principais preocupações financeiras de organizações que fazem grandes investimentos em IA. Devido ao alto custo de GPUs/aceleradores, o subaproveitamento desse hardware leva a desperdício financeiro e dificulta o escalonamento dos projetos de IA. Uma solução é a adoção da GPU como Serviço (GPUaaS), um modelo operacional desenvolvido para ajudar a maximizar o retorno sobre o investimento (ROI) do seu hardware.

O Red Hat OpenShift AI é uma plataforma baseada em Kubernetes que pode ser usada para implementar uma solução de GPUaaS multiusuário. Embora o provisionamento do hardware seja a primeira etapa, alcançar a verdadeira GPUaaS exige mais alocação dinâmica conforme a demanda da carga de trabalho. Assim, as GPUs são recuperadas mais rapidamente para minimizar o tempo ocioso.

A GPUaaS também exige multitenancy. É nesse momento que soluções avançadas de enfileiramento, como o Kueue (Kubernetes Elastic Unit Execution), se mostram essenciais. Por meio do particionamento de recursos e da aplicação de multitenancy via cotas, o Kueue garante o acesso justo e previsível para várias equipes e projetos. Depois que essa governança está estabelecida, o principal desafio passa a ser criar um pipeline de escalabilidade automática para cargas de trabalho de IA.

Escalabilidade automática e integração de cargas de trabalho de IA

O objetivo de uma plataforma de GPUaaS é integrar frameworks de IA conhecidos e escalar recursos automaticamente conforme a demanda da carga de trabalho. O Red Hat OpenShift AI simplifica o processo de implantação de frameworks essenciais de IA.

Existem três categorias principais para essas cargas de trabalho, e todas elas são compatíveis com o Kueue:

  • Inferência: frameworks como KServe e vLLM lidam com modelos de serviço com eficiência, principalmente para Large Language Models (LLMs).
  • Treinamento (distribuído): ferramentas como o KubeFlow Training e o KubeRay são usadas para gerenciar tarefas de treinamento distribuídas, complexas e de vários nós.
  • Ciência de dados interativa: os workbenches, que representam a experiência de notebook de ciência de dados no OpenShift AI, também se integram ao Kueue. Dessa forma, eles são iniciados apenas quando os recursos estão disponíveis, reduzindo o desperdício de recursos.

Gerenciamento de filas com o Kueue

O principal desafio em um cluster de IA multitenant é gerenciar o fluxo de solicitações de tarefas da GPU, e essa é exatamente a função do Kueue. Ele oferece o gerenciamento necessário de filas e lotes para lidar com essas tarefas que consomem muitos recursos de computação.

Se um cluster ficar momentaneamente saturado, o Kueue evita a falha imediata da solicitação de recurso. Em vez disso, ele mantém e gerencia uma lista de espera de forma inteligente. Esse recurso é essencial para manter a imparcialidade e a eficiência, pois garante que as solicitações não sejam rejeitadas arbitrariamente e ajuda a evitar o monopólio de recursos.

Escalabilidade automática e eficaz com KEDA

Trabalhando em conjunto, o Kueue e o KEDA (Kubernetes Event-Driven Autoscaling) otimizam o uso de recursos por meio de escalas verticais e horizontais automatizadas.

Escala vertical automatizada: o KEDA monitora as métricas do Kueue, especificamente a duração da fila de tarefas da GPU. Ao observar esse backlog, o KEDA pode iniciar proativamente a escala vertical de novos nós de GPU. Isso significa que os novos recursos são provisionados antes que a demanda sobrecarregue a capacidade existente. Essa ação preventiva resulta em alta disponibilidade e maior eficiência de custos. Como resultado dessa integração, a fila do Kueue atua como um sinal de escala essencial, permitindo um gerenciamento de recursos proativo e adaptado à demanda.

Redução automática de escala: o KEDA facilita a liberação automática da cota, recuperando-a das cargas de trabalho que estão ociosas. Se uma carga de trabalho, por exemplo, um RayCluster, conclui sua tarefa, mas não é removida, uma métrica personalizada (exposta pelo Prometheus ou ferramenta similar) sinaliza que ela está inativa. O KEDA monitora a métrica de ociosidade e, por meio de um ScaledObject, aciona o autoscaler para reduzir a zero as réplicas dos componentes de trabalho que estiverem ociosos. Isso reduz significativamente os custos operacionais.

Métodos semelhantes podem ser usados em clusters de inferência, com o KEDA responsável por reduzir os componentes do KServe a zero sempre que for detectada ociosidade. A redução das réplicas dos componentes de trabalho libera os recursos de nó subjacentes. O objeto de carga e a cota reservada do Kueue são preservados. Isso permite que as equipes retenham o acesso à cota para a próxima tarefa, evitando a recolocação na fila e, simultaneamente, reduzindo o desperdício de recursos de computação caros.

Otimização orientada por observabilidade

O monitoramento contínuo é essencial para melhorar a eficiência e maximizar o ROI da GPUaaS. Os administradores devem monitorar constantemente a integridade, a temperatura e as taxas de utilização da GPU.

O stack Prometheus/Grafana integrado no OpenShift AI oferece aos administradores a capacidade de criar dashboards personalizados. Assim, é possível monitorar a utilização da GPU detalhadamente por locatário, projeto e GPU. Com base nessas métricas, os administradores podem refinar as cotas de GPU, ajustar as políticas de compartilhamento justo do Kueue e confirmar a maximização do ROI.

Conclusão 

A GPUaaS no OpenShift AI oferece benefícios diretos aos negócios. Assim você alcança a economia por meio da alocação dinâmica de GPUs, melhora a governança com o multitenancy aplicado pelas filas e cotas do Kueue e obtém escalabilidade otimizada, automática e integrada para todas as suas cargas de trabalho de IA.

O Red Hat OpenShift AI oferece uma solução de nível empresarial que transforma um hardware de GPU caro e muitas vezes subutilizado em uma plataforma de GPUaaS multitenant altamente eficiente. Confira a página do OpenShift AI para mais informações. 

Recurso

A empresa adaptável: da prontidão para a IA à disrupção

Este e-book, escrito por Michael Ferris, COO e CSO da Red Hat, aborda o ritmo das mudanças e disrupções tecnológicas que os líderes de TI enfrentam atualmente com a IA.

Sobre os autores

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Lindani Phiri is a Senior Principal Engineer and Architect for the OpenShift AI Core Platform.

UI_Icon-Red_Hat-Close-A-Black-RGB

Navegue por canal

automation icon

Automação

Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes

AI icon

Inteligência artificial

Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente

open hybrid cloud icon

Nuvem híbrida aberta

Veja como construímos um futuro mais flexível com a nuvem híbrida

security icon

Segurança

Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias

edge icon

Edge computing

Saiba quais são as atualizações nas plataformas que simplificam as operações na borda

Infrastructure icon

Infraestrutura

Saiba o que há de mais recente na plataforma Linux empresarial líder mundial

application development icon

Aplicações

Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações

Virtualization icon

Virtualização

O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem