Operacionalizar modelos de IA em grande escala é um desafio enorme para os líderes de TI. Embora o custo inicial do treinamento de um Large Language Model (LLM) possa ser significativo, o custo real (muitas vezes subestimado) está relacionado à inferência.
A inferência de IA (processo de usar um modelo treinado para gerar um resultado) é a parte mais cara e trabalhosa de uma aplicação de IA, principalmente porque está sempre acontecendo durante a produção. Uma inferência ineficiente pode comprometer o retorno sobre o investimento (ROI) potencial de um projeto de IA, além de afetar negativamente a experiência do cliente devido à alta latência.
A abordagem de full-stack para o desempenho da IA
Disponibilizar LLMs em grande escala de forma eficaz requer uma abordagem de full-stack estratégica que envolva tanto o modelo quanto o runtime. Uma única abordagem não é suficiente. Para alcançar alto desempenho e economia, é necessário ter dois focos: gerenciar o consumo de recursos e maximizar a taxa de transferência.
Otimização do modelo de IA
Uma parte estratégica dessa abordagem é a compactação de modelos, que reduz a dimensão de um modelo e os requisitos de recursos sem comprometer a precisão.
A quantização é uma técnica essencial para a otimização de modelos. Ela reduz a precisão dos valores numéricos de um modelo, como seus pesos e ativações, do padrão de 16 bits para formatos inferiores, como 8 ou 4 bits. Isso reduz significativamente a área de ocupação de memória do modelo, permitindo que ele seja executado em menos hardware.
A esparsidade é outro método eficaz, que torna os modelos mais eficientes, removendo conexões desnecessárias (pesos). Isso torna a rede menor e mais rápida, com impacto mínimo na precisão.
Otimização do runtime de inferência
Otimizar o runtime da disponibilização é igualmente importante. Os runtimes básicos geralmente enfrentam dificuldades com o uso ineficiente da memória da GPU e a geração lenta de tokens, levando a GPUs ociosas e alta latência. Um runtime de alto desempenho maximiza o uso de hardwares de GPU caros e reduz a latência.
O projeto vLLM open source se tornou o padrão do setor para inferência de alto desempenho, ao abordar essas limitações de runtime com técnicas otimizadas para eficiência.
- O processamento contínuo em lotes minimiza o tempo ocioso da GPU ao processar simultaneamente tokens de várias solicitações. Em vez de lidar com uma única solicitação por vez, ele agrupa tokens de diferentes sequências em lotes. Essa abordagem melhora significativamente a utilização da GPU e a taxa de transferência de inferência.
- PagedAttention é outro exemplo. Essa nova estratégia de gerenciamento de memória lida de forma eficiente com caches de chave-valor (KV) em larga escala, permitindo mais solicitações simultâneas e sequências mais longas, além de reduzir os gargalos de memória.
Viabilização da IA distribuída em larga escala
Para empresas com aplicações de alto tráfego, as implantações de servidor único geralmente não são suficientes. O projeto llm-d open source tem como base os recursos do vLLM para viabilizar a inferência distribuída de vários nós. Com isso, as organizações podem escalar cargas de trabalho de IA em vários servidores para lidar com a demanda crescente e modelos maiores, mantendo o desempenho previsível e a economia.
O llm-d é um control plane open source que aprimora o Kubernetes com recursos específicos necessários para cargas de trabalho de IA. O projeto se concentra em funcionalidades que afetam o desempenho e a eficiência da inferência, incluindo:
- Roteamento semântico: o llm-d usa dados em tempo real para rotear com eficácia as solicitações de inferência para a instância ideal. Isso melhora o uso eficiente de recursos e reduz o sobreprovisionamento caro.
- Desagregação da carga de trabalho: separa as fases de preenchimento prévio e decodificação para o recurso ideal ser usado na tarefa certa.
- Suporte para arquiteturas avançadas: o llm-d foi projetado para lidar com arquiteturas de modelos emergentes, como a combinação de especialistas (MoE), que exigem orquestração e paralelismo em vários nós.
Ao criar um control plane flexível funcionando em diferentes hardwares e ambientes, a comunidade do llm-d está trabalhando para estabelecer um padrão para a IA empresarial em grande escala.
Como a Red Hat simplifica a IA em grande escala
Adotar a IA em nível empresarial é mais do que somente escolher um modelo. É necessária uma estratégia de desenvolvimento, implantação e gerenciamento em toda a infraestrutura de nuvem híbrida. A Red Hat oferece um portfólio de soluções empresariais projetadas para simplificar e acelerar esse processo, desde o desenvolvimento inicial do modelo até a inferência em grande escala.
Red Hat AI
O portfólio do Red Hat AI oferece uma abordagem de full-stack para a otimização da IA. Essa oferta integrada inclui o Red Hat Enterprise Linux AI (RHEL AI), o Red Hat OpenShift AI e o Red Hat AI Inference Server.
- O RHEL AI oferece uma base para o desenvolvimento de IA empacotando o RHEL com componentes open source essenciais, como modelos Granite da IBM e bibliotecas como o PyTorch. A plataforma é portátil e pode ser executada on-premise, na nuvem pública ou na edge.
- O Red Hat OpenShift AI é baseado no Red Hat OpenShift e projetado para gerenciar todo o ciclo de vida da IA. Ele oferece um ambiente consistente para cientistas de dados, desenvolvedores e equipes de TI colaborarem. Ele escala cargas de trabalho de IA em ambientes de nuvem híbrida e simplifica o gerenciamento de aceleradores de hardware.
- O Red Hat AI Inference Server otimiza a inferência oferecendo uma distribuição compatível do vLLM, criada para oferecer taxa de transferência alta e desempenho de baixa latência. Entregue como um container, ele é portátil em diversas infraestruturas e inclui uma ferramenta de compactação de modelo para reduzir o uso de computação. Para escalar além de um único servidor, o Red Hat AI Inference Server funciona com o projeto llm-d open source.
Para os líderes de TI, o caminho para uma estratégia de IA full-stack em nuvem híbrida é a maneira mais eficaz de operacionalizar a IA em grande escala. O Red Hat AI oferece uma base consistente para auxiliar as organizações a migrar da experimentação com a IA para a IA em escala completa e pronta para produção, com base na nossa visão de "qualquer modelo, acelerador ou nuvem".
Mais informações
Comece a jornada rumo a uma IA simples e escalável explorando os recursos disponíveis no website do Red Hat AI.
Sobre o autor
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Mais como este
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Navegue por canal
Automação
Últimas novidades em automação de TI para empresas de tecnologia, equipes e ambientes
Inteligência artificial
Descubra as atualizações nas plataformas que proporcionam aos clientes executar suas cargas de trabalho de IA em qualquer ambiente
Nuvem híbrida aberta
Veja como construímos um futuro mais flexível com a nuvem híbrida
Segurança
Veja as últimas novidades sobre como reduzimos riscos em ambientes e tecnologias
Edge computing
Saiba quais são as atualizações nas plataformas que simplificam as operações na borda
Infraestrutura
Saiba o que há de mais recente na plataforma Linux empresarial líder mundial
Aplicações
Conheça nossas soluções desenvolvidas para ajudar você a superar os desafios mais complexos de aplicações
Virtualização
O futuro da virtualização empresarial para suas cargas de trabalho on-premise ou na nuvem