O que é vLLM?
O vLLM é um servidor de inferência que acelera a inferência de gen AI em Large Language Models (LLMs) ao otimizar o uso da memória e das unidades de processamento gráfico (GPUs).
Com o uso mais eficiente das GPUs, os LLMs fazem cálculos mais rápido e em grande escala. Isso se torna ainda mais importante quando as organizações precisam de aplicações que funcionem em tempo real, como chatbots ou fluxos de trabalho multimodais.
Este artigo destaca três exemplos reais de como grandes empresas estão utilizando vLLM com sucesso.
Por que o vLLM é importante para a inferência de IA?
Durante a inferência, os LLMs utilizam pares chave-valor para executar uma grande quantidade de cálculos em um curto período de tempo.
Os LLMs usam os pares chave-valor para atribuir um valor numérico aos tokens (termos ou frases), compreender a linguagem e calcular respostas. Então, todo token (chave) é associado a um número (valor) que permite ao LLM calcular uma resposta.
A inferência de IA utiliza pares chave-valor em suas duas principais fases:
- Pré-processamento (Prefill) é quando o modelo processa o prompt de entrada. Os pares chave-valor de cada token formam o cache de chave-valor (KV cache), que funciona como uma memória de curto prazo para o modelo.
- Decodificação (Decode) é quando o modelo gera novos tokens. Ele usa o cache de chave-valor existente para calcular os pares chave-valor de uma resposta.
Os LLMs armazenam os pares chave-valor de cada token processado no cache de chave-valor. Como esse cache cresce de acordo com o tamanho do prompt e com a quantidade de tokens gerados pelo modelo, ele acaba ocupando uma parte significativa da memória dos LLMs. Os sistemas de gerenciamento de memória de LLM tradicionais não organizam os cálculos nem usam a memória da forma mais eficiente, deixando os LLMs lentos.
O vLLM utiliza uma técnica de gerenciamento de memória que entende como o cache de chave-valor (KV cache) é utilizado durante a inferência. Ele recupera os dados do cache de forma a identificar pares chave-valor repetidos, ajudando a evitar a fragmentação da memória e a reduzir o processamento desnecessário pelo LLM. Com isso, o uso da memória da GPU fica mais eficiente e a inferência do LLM mais rápida.
Quatro considerações importantes sobre a implementação da tecnologia de IA
Como o vLLM reduz a demanda por armazenamento da GPU?
O vLLM usa diferentes tecnologias e técnicas para usar menos armazenamento e agilizar a inferência:
- Oprocessamento contínuo em lotes ocorre quando os LLMs começam o processo de inferência do próximo lote de tokens, mesmo que ainda não tenham terminado de calcular o token anterior (o vLLM é multitarefas).
- PagedAttention é uma tecnologia inovadora que utiliza o cache de chave-valor para relembrar tokens anteriores e usar essa informação para economizar espaço de armazenamento na GPU.
- A decodificação especulativa utiliza um modelo menor e mais rápido para prever os próximos tokens, o que aumenta a velocidade e a eficiência da fase de pré-processamento.
- A quantização é o processo de comprimir parâmetros maiores de um modelo em formatos menores para reduzir as necessidades de armazenamento sem sacrificar a precisão. Há vários métodos de quantização para personalização de modelos.
Processar menos tokens ou gerar uma resposta alguns segundos mais rápido pode parecer algo sem grande importância. Mas quando as empresas aplicam essa técnica de economia de memória em milhares de cargas de trabalho de IA, GPUs e operações de servidores de inferência, é possível obter ganhos expressivos em tempo, custos e recursos.
Essa abordagem permite que as organizações ampliem o uso de IA em larga escala.
Por que as empresas usam o vLLM?
As organizações aplicam inferência de IA em cargas de trabalho de grande volume e alta variabilidade. No entanto, a implantação consistente de LLMs em grande escala exige muita capacidade computacional, recursos e habilidades operacionais especializadas.
O vLLM resolve esses desafios ao otimizar o uso do hardware necessário para viabilizar a inferência de IA em ambientes empresariais. Por isso, o vLLM é especialmente interessante para setores que demandam flexibilidade, controle e desempenho.
Por ser uma solução open source, o vLLM permite às empresas:
- Possuir e gerenciar suas próprias GPUs.
- Controlar seus dados.
- Experimentar novos modelos conforme são lançados.
Esse nível de autonomia oferece um baixo custo por token e reduz as preocupações com privacidade.
O vLLM pode ser implantado em diversos hardwares, como GPUs NVIDIA e AMD, TPUs do Google, Intel Gaudi e AWS Neuron. O vLLM também não se restringe a um hardware específico. Isso significa que ele funciona na nuvem, em data centers ou na edge.
Três casos de uso do vLLM
De iniciativas de recrutamento a jogos online, a escalabilidade da inferência pode se tornar complexa rapidamente.
Os exemplos a seguir mostram como as empresas estão usando o projeto open source vLLM. Essas empresas não são clientes da Red Hat, mas aproveitam os benefícios da comunidade vLLM e da tecnologia que ela desenvolve.
Como o Roblox usa o vLLM?
O Roblox é uma plataforma digital de jogos com milhões de usuários do mundo todo. Os usuários podem criar suas próprias experiências de jogo e acessar as experiências criadas por outras pessoas.
Lançado recentemente, o Assistant, chatbot de IA que auxilia na criação de conteúdo, fez o número de tokens processados superar 1 bilhão por semana. Outras funcionalidades como a tradução em tempo real por IA e seu modelo de segurança de voz também aumentaram a complexidade da inferência. Essa multimodalidade em milhões de interações de usuários gera mais tokens para processar, exigindo mais recursos para a inferência.
Para lidar com o aumento das demandas de processamento, o Roblox adotou o vLLM como seu principal mecanismo de inferência. O Roblox utiliza os recursos de decodificação especulativa do vLLM especificamente em tarefas de linguagem para atender sua base global de usuários. Desde que adotou o vLLM, o Roblox registrou uma redução de 50% na latência ao processar 4 bilhões de tokens por semana.
O vLLM permite que o Roblox escale suas operações e acompanhe a demanda dos usuários à medida que a plataforma continua crescendo. O Roblox escolheu o vLLM porque se alinha ao seu compromisso de apoiar tecnologias open source.
Confira como o Roblox usou o vLLM no Office Hours sobre vLLM da Red Hat.
Como o LinkedIn usa o vLLM?
O LinkedIn adotou o vLLM para viabilizar seus vários casos de uso de gen IA voltados a um público amplo e ativo.
Como uma das maiores redes profissionais do mundo, o LinkedIn reúne mais de 1 bilhão de membros em mais de 200 países. Agora, o vLLM permite ao LinkedIn oferecer suporte a mais de 50 casos de uso de gen AI, como o LinkedIn Hiring Assistant.
Usando cálculos complexos de classificação, o LinkedIn Hiring Assistant filtra as qualificações dos candidatos, como anos de experiência, habilidades e empregos anteriores. Isso ajuda os recrutadores a alocar os candidatos na vaga mais adequada.
No entanto, processar todas essas classificações exige uma média de 1000 tokens por candidato, e os bancos de talentos podem acumular milhares de cadastros.
Mais de 50% das candidaturas compartilham tokens de prefixo (as qualificações têm pontos em comum). Isso faz do LinkedIn Hiring Assistant um perfeito caso de uso dos recursos do processamento contínuo em lotes e da tecnologia PagedAttention do vLLM, porque ambos reduzem a latência, permitem alto volume de processamento e diminuem a sobrecarga do armazenamento da GPU.
O tempo por token de saída (TPOT) reflete a média do tempo que um modelo leva para gerar cada token. Até o momento, o vLLM ajudou o LinkedIn a reduzir seu TPOT em 7%.
Como a Amazon usa o vLLM?
O Rufus, o assistente de compras com gen IA da Amazon, tem como objetivo melhorar a experiência do cliente, diminuindo a fadiga de decisão. Conforme relatado, o Rufus atendeu 250 milhões de clientes em 2025, e esse número continua crescendo.
Com um grande número de clientes utilizando o assistente de compras com gen AI, a complexidade da inferência aumentou. A Amazon percebeu que nenhum chip ou instância possuía memória suficiente para que o Rufus funcionasse sem problemas.
A estratégia da empresa foi priorizar os recursos de inferência escaláveis em múltiplos nós que garantissem a precisão com maior velocidade e latência reduzida. Eles alcançaram isso integrando uma arquitetura multinode ao vLLM para obter uma inferência mais rápida e fluida.
Ao utilizar a técnica de lotes contínuos (continuous batching) do vLLM, a arquitetura multinode conseguiu agendar de forma inteligente o processamento de inferência, de modo que o volume de tokens não afetasse a latência nem o desempenho.
O uso do vLLM para aumentar a eficácia e a capacidade de processamento dos LLMs, permite à Amazon escalar projetos de gen IA, como o Rufus, que continuarão crescendo e evoluindo com seus clientes.
Como o vLLM afetará o futuro da inferência?
O vLLM continua sendo a base para o futuro da inferência de IA devido às suas principais características:
- Velocidade: os recursos de inferência continuam evoluindo. O hardware e os provedores de modelos do vLLM contribuem diretamente para o projeto, melhorando a velocidade e a eficiência dos modelos.
- Comunidade: o vLLM tem uma grande comunidade open source que segue crescendo. Todos os 10 principais colaboradores, como Deepseek, NVIDIA, Meta e Google, estão criando modelos prontos para o vLLM devido à sua eficiência.
- Flexibilidade: o vLLM pode ser implantado na maioria dos hardwares de IA, como GPUs da AMD e NVIDIA, TPUS do Google, Intel Gaudi, AWS Neuron, e outros aceleradores, como MetaX, Rebellions e muito mais. Com suporte a diversos hardwares, o vLLM dá às empresas a flexibilidade para entregar resultados utilizando recursos que já possuem.
- Suporte desde o dia zero: quando empresas famosas, como a Meta ou o Google, lançam um novo modelo, o vLLM já está familiarizado com as arquiteturas. Isso significa que o vLLM oferece suporte desde o dia zero (imediato) à novos modelos. Assim, o vLLM é uma solução acessível e pronta para uso para empresas que desejam acelerar a implantação de modelos e reduzir custos.
O vLLM também inclui o llm-d, um framework de inferência distribuída para gerenciar LLMs em grande escala na nuvem híbrida.
Como a Red Hat pode ajudar
O Red Hat® AI é um conjunto de plataformas de IA baseado no compromisso da Red Hat com o open source. Como um dos maiores colaboradores comerciais do vLLM, temos um profundo conhecimento dessa tecnologia e de como ela viabiliza nossas plataformas de IA.
Com a tecnologia do vLLM, o Red Hat AI maximiza o uso da GPU e viabiliza tempos de resposta mais rápidos. Seus recursos de compressão do modelo aumentam a eficiência da inferência, sem sacrificar o desempenho. Isso é muito útil nos casos de uso em que os dados precisam de uma adicional camada de segurança em um ambiente híbrido.
O Red Hat AI inclui o Red Hat OpenShift® AI, uma plataforma para desenvolver, implantar e gerenciar modelos de IA open source com o vLLM. O Red Hat OpenShift AI combina a eficácia do vLLM com outros projetos da comunidade open source, como o llm-d, que usa uma arquitetura modular para oferecer mais controle e consistência, além de um agendamento de recursos mais eficiente. Ele incorpora fundamentos que transformam a forma como os LLMs operam nativamente no Kubernetes e como as empresas escalam suas cargas de trabalho de IA.
Inteligência artificial (IA) na Red Hat
Fique por dentro de como a IA está sendo usada na Red Hat, como em eventos ao vivo, demonstrações de soluções hands-on e pesquisas técnicas avançadas.