GPU como Serviço em grande escala para IA: estratégias práticas com o Red Hat OpenShift AI

10 de novembro de 2025Ana Biazetti, Lindani Phiri4 minutos (tempo de leitura)

Diga adeus às GPUs ociosas. Aprenda a implementar a alocação dinâmica, multitenancy e escalabilidade automática com eficácia para cargas de trabalho de IA.

Por que o GPUaaS é essencial no Red Hat OpenShift AI?

O custo do hardware especializado é uma das principais preocupações financeiras de organizações que fazem grandes investimentos em IA. Devido ao alto custo de GPUs/aceleradores, o subaproveitamento desse hardware leva a desperdício financeiro e dificulta o escalonamento dos projetos de IA. Uma solução é a adoção da GPU como Serviço (GPUaaS), um modelo operacional desenvolvido para ajudar a maximizar o retorno sobre o investimento (ROI) do seu hardware.

O Red Hat OpenShift AI é uma plataforma baseada em Kubernetes que pode ser usada para implementar uma solução de GPUaaS multiusuário. Embora o provisionamento do hardware seja a primeira etapa, alcançar a verdadeira GPUaaS exige mais alocação dinâmica conforme a demanda da carga de trabalho. Assim, as GPUs são recuperadas mais rapidamente para minimizar o tempo ocioso.

A GPUaaS também exige multitenancy. É nesse momento que soluções avançadas de enfileiramento, como o Kueue (Kubernetes Elastic Unit Execution), se mostram essenciais. Por meio do particionamento de recursos e da aplicação de multitenancy via cotas, o Kueue garante o acesso justo e previsível para várias equipes e projetos. Depois que essa governança está estabelecida, o principal desafio passa a ser criar um pipeline de escalabilidade automática para cargas de trabalho de IA.

Escalabilidade automática e integração de cargas de trabalho de IA

O objetivo de uma plataforma de GPUaaS é integrar frameworks de IA conhecidos e escalar recursos automaticamente conforme a demanda da carga de trabalho. O Red Hat OpenShift AI simplifica o processo de implantação de frameworks essenciais de IA.

Existem três categorias principais para essas cargas de trabalho, e todas elas são compatíveis com o Kueue:

Inferência: frameworks como KServe e vLLM lidam com modelos de serviço com eficiência, principalmente para Large Language Models (LLMs).
Treinamento (distribuído): ferramentas como o KubeFlow Training e o KubeRay são usadas para gerenciar tarefas de treinamento distribuídas, complexas e de vários nós.
Ciência de dados interativa: os workbenches, que representam a experiência de notebook de ciência de dados no OpenShift AI, também se integram ao Kueue. Dessa forma, eles são iniciados apenas quando os recursos estão disponíveis, reduzindo o desperdício de recursos.

Gerenciamento de filas com o Kueue

O principal desafio em um cluster de IA multitenant é gerenciar o fluxo de solicitações de tarefas da GPU, e essa é exatamente a função do Kueue. Ele oferece o gerenciamento necessário de filas e lotes para lidar com essas tarefas que consomem muitos recursos de computação.

Se um cluster ficar momentaneamente saturado, o Kueue evita a falha imediata da solicitação de recurso. Em vez disso, ele mantém e gerencia uma lista de espera de forma inteligente. Esse recurso é essencial para manter a imparcialidade e a eficiência, pois garante que as solicitações não sejam rejeitadas arbitrariamente e ajuda a evitar o monopólio de recursos.

Escalabilidade automática e eficaz com KEDA

Trabalhando em conjunto, o Kueue e o KEDA (Kubernetes Event-Driven Autoscaling) otimizam o uso de recursos por meio de escalas verticais e horizontais automatizadas.

Escala vertical automatizada: o KEDA monitora as métricas do Kueue, especificamente a duração da fila de tarefas da GPU. Ao observar esse backlog, o KEDA pode iniciar proativamente a escala vertical de novos nós de GPU. Isso significa que os novos recursos são provisionados antes que a demanda sobrecarregue a capacidade existente. Essa ação preventiva resulta em alta disponibilidade e maior eficiência de custos. Como resultado dessa integração, a fila do Kueue atua como um sinal de escala essencial, permitindo um gerenciamento de recursos proativo e adaptado à demanda.

Redução automática de escala: o KEDA facilita a liberação automática da cota, recuperando-a das cargas de trabalho que estão ociosas. Se uma carga de trabalho, por exemplo, um RayCluster, conclui sua tarefa, mas não é removida, uma métrica personalizada (exposta pelo Prometheus ou ferramenta similar) sinaliza que ela está inativa. O KEDA monitora a métrica de ociosidade e, por meio de um ScaledObject, aciona o autoscaler para reduzir a zero as réplicas dos componentes de trabalho que estiverem ociosos. Isso reduz significativamente os custos operacionais.

Métodos semelhantes podem ser usados em clusters de inferência, com o KEDA responsável por reduzir os componentes do KServe a zero sempre que for detectada ociosidade. A redução das réplicas dos componentes de trabalho libera os recursos de nó subjacentes. O objeto de carga e a cota reservada do Kueue são preservados. Isso permite que as equipes retenham o acesso à cota para a próxima tarefa, evitando a recolocação na fila e, simultaneamente, reduzindo o desperdício de recursos de computação caros.

Otimização orientada por observabilidade

O monitoramento contínuo é essencial para melhorar a eficiência e maximizar o ROI da GPUaaS. Os administradores devem monitorar constantemente a integridade, a temperatura e as taxas de utilização da GPU.

O stack Prometheus/Grafana integrado no OpenShift AI oferece aos administradores a capacidade de criar dashboards personalizados. Assim, é possível monitorar a utilização da GPU detalhadamente por locatário, projeto e GPU. Com base nessas métricas, os administradores podem refinar as cotas de GPU, ajustar as políticas de compartilhamento justo do Kueue e confirmar a maximização do ROI.

Conclusão

A GPUaaS no OpenShift AI oferece benefícios diretos aos negócios. Assim você alcança a economia por meio da alocação dinâmica de GPUs, melhora a governança com o multitenancy aplicado pelas filas e cotas do Kueue e obtém escalabilidade otimizada, automática e integrada para todas as suas cargas de trabalho de IA.

O Red Hat OpenShift AI oferece uma solução de nível empresarial que transforma um hardware de GPU caro e muitas vezes subutilizado em uma plataforma de GPUaaS multitenant altamente eficiente. Confira a página do OpenShift AI para mais informações.

Sobre os autores

Ana Biazetti

Senior Principal Engineer, Red Hat AI

Ana Biazetti is a senior architect at Red Hat Openshift AI product organization, focusing on Model Customization, Fine Tuning and Distributed Training.

Read full bio