Cómo el vLLM acelera la inferencia de inteligencia artificial: tres casos prácticos empresariales

Copiar URL

El vLLM es un servidor de inferencia que acelera la inferencia de inteligencia artificial generativa en los modelos de lenguaje de gran tamaño (LLM) mediante un mejor uso del almacenamiento de memoria y las unidades de procesamiento gráfico (GPU). 

Un uso más eficiente de las GPU permite que los LLM realicen los cálculos más rápido y a gran escala. Esta posibilidad cobra cada vez más importancia, ya que las empresas necesitan aplicaciones que funcionen con inmediatez, como los chatbots y los flujos de trabajo multimodales. 

En este artículo, destacamos tres ejemplos reales del uso exitoso del vLLM por parte de empresas de renombre.

Obtén una descripción general completa del vLLM

Durante la inferencia, los LLM recurren a pares de clave-valor para realizar muchos cálculos matemáticos en un breve período. 

La finalidad de los pares de clave-valor es asignar un valor numérico a ciertos tókenes (términos o frases) para que los LLM comprendan el lenguaje y calculen las respuestas. Así, cada token (clave) se asocia a un número (valor) que permite al LLM calcular la respuesta. 

Este método se utiliza en las dos etapas principales de la inferencia de inteligencia artificial: 

  • Prellenado: En esta etapa, el modelo procesa la petición entrante. Los pares clave-valor de cada token crean la memoria caché de clave-valor (KV), que funciona como una memoria a corto plazo del modelo.
  • Decodificación: En esta etapa, el modelo genera nuevos tókenes. Utiliza su memoria caché KV para calcular los pares clave-valor de una respuesta. 

Los LLM almacenan los pares clave-valor de cada token procesado en la memoria caché KV. Dado que la memoria caché crece en función de la longitud de las peticiones y los resultados obtenidos, ocupa una gran cantidad de almacenamiento de memoria del modelo. Los sistemas tradicionales de gestión de memoria de los LLM no organizan los cálculos ni utilizan la memoria de la forma más eficiente, lo que provoca que los modelos funcionen con lentitud. 

El vLLM utiliza una técnica de gestión de memoria basada en la comprensión del uso de la memoria caché KV durante la inferencia. La técnica consiste en recuperar los datos de la caché de una forma que permite identificar los pares clave-valor que se repiten para ayudar a prevenir la fragmentación de la memoria y reducir la carga de trabajo del LLM. Esto se traduce en un aumento de la eficiencia en el uso de la memoria de la GPU y de la rapidez de las inferencias del LLM. 

Obtén más información sobre los beneficios de ampliar el uso de la inteligencia artificial 

Cuatro aspectos clave para la implementación de la tecnología de inteligencia artificial

El vLLM utiliza diferentes tecnologías y técnicas para reducir el uso de almacenamiento y acelerar la inferencia: 

  • Procesamiento por lotes continuo: Sucede cuando el modelo comienza el proceso de inferencia para el siguiente lote de tókenes, incluso si no ha terminado los cálculos para el token anterior (los vLLM pueden realizar múltiples tareas a la vez).
  • PagedAttention: Es una tecnología innovadora que utiliza la memoria caché KV para que el modelo recuerde tókenes anteriores y aproveche su memoria para ahorrar almacenamiento en la GPU.
  • Decodificación especulativa: Consiste en el uso de un modelo más pequeño y rápido para predecir los tókenes entrantes, lo que acelera la etapa de prellenado y aumenta su eficiencia.
  • Cuantización: Es el proceso de comprimir parámetros de modelos más grandes en formatos más pequeños para reducir las necesidades de almacenamiento sin comprometer la precisión. Hay varios métodos de cuantización para personalizar los modelos.

Puede parecer irrelevante que se procesen menos tókenes o que la respuesta se genere unos segundos más rápido, pero cuando las empresas utilizan esta técnica de ahorro de memoria en miles de cargas de trabajo de inteligencia artificial, GPU y cálculos de servidores de inferencia, pueden ahorrar una cantidad considerable de tiempo, dinero y recursos. 

Esto supone un cambio radical para las empresas que desean ampliar el uso de la inteligencia artificial de forma generalizada. 

Descubre la manera en que la inferencia distribuida acelera la inteligencia artificial a gran escala 

Las empresas utilizan la inferencia de la inteligencia artificial en cargas de trabajo de gran tamaño y con muchas variables. Sin embargo, para implementar LLM con uniformidad y a gran escala, se requiere mucha potencia informática, recursos y habilidades operativas especializadas. 

El vLLM permite superar estos desafíos al hacer un uso más eficiente del hardware necesario para respaldar la inferencia de inteligencia artificial en la empresa. Por eso, el vLLM es especialmente atractivo para los sectores que necesitan flexibilidad y control, además de velocidad. 

Al ser una solución open source, el vLLM permite a las empresas: 

  • poseer y gestionar sus GPU;
  • controlar sus datos;
  • experimentar con modelos nuevos tan pronto como se lancen al mercado.

Esta tecnología ofrece mucha libertad, un costo menor por token y menos preocupaciones en cuanto a la seguridad. 

El vLLM se puede implementar en varios sistemas de hardware, como las GPU de NVIDIA y AMD, las TPU de Google, Intel Gaudi y AWS Neuron. Además, el vLLM no se limita a un hardware específico, lo que significa que funciona en toda la nube, en el centro de datos o en el extremo de la red.

vLLM vs. Ollama: When to use each framework

En contextos tales como las iniciativas de contratación de personal o los juegos en línea, ajustar las inferencias puede volverse complicado rápidamente. 

Los siguientes ejemplos muestran el uso que hacen las empresas del proyecto open source vLLM. Estas empresas no son clientes de Red Hat, pero se benefician de la amplia comunidad vLLM y de la tecnología que esta produce. 

¿Cómo utiliza Roblox el vLLM?

Roblox es una plataforma de juegos en línea con millones de usuarios en todo el mundo. En ella, pueden crear su propia experiencia y participar en juegos creados por otros. 

Su última función, Assistant, un chatbot con inteligencia artificial que ayuda a crear contenido, provocó que la cantidad de tókenes procesados aumentara a más de mil millones por semana. Otras funciones, como la traducción instantánea mediante inteligencia artificial en el chat y su modelo de seguridad de voz, contribuyeron a aumentar la complejidad de las inferencias. Esta multimodalidad en millones de interacciones de usuarios genera más tókenes que deben procesarse, lo que requiere más recursos para la inferencia. 

Para hacer frente al aumento de la demanda de procesamiento, Roblox adoptó el vLLM como su motor de inferencia principal. Roblox recurre específicamente a las funciones de decodificación especulativa del vLLM para tareas lingüísticas con el fin de prestar servicio a su base de clientes global. Desde que adoptó el vLLM, Roblox experimentó una reducción del 50 % en la latencia en el procesamiento de 4000 millones de tókenes por semana. 

El uso del vLLM permite que Roblox crezca y satisfaga la demanda de los usuarios a medida que su plataforma sigue expandiéndose. Roblox eligió vLLM porque se ajusta a su compromiso de apoyar las tecnologías de open source. 

Escucha la explicación del equipo de Roblox sobre el uso de vLLM en vLLM Office Hours de Red Hat

Obtén más información sobre Roblox y vLLM 

¿Cómo utiliza LinkedIn el vLLM?

LinkedIn adoptó el vLLM para respaldar la amplia variedad de casos prácticos de inteligencia artificial generativa que emplean para ajustarse a su numerosa y activa comunidad de usuarios. 

LinkedIn, una de las redes sociales profesionales más grandes del mundo, cuenta con más de mil millones de miembros en más de 200 países. Gracias al vLLM, LinkedIn puede respaldar más de 50 casos prácticos de inteligencia artificial generativa, como LinkedIn Hiring Assistant

Mediante complejos cálculos de clasificación, LinkedIn Hiring Assistant filtra las aptitudes de los candidatos, como los años de experiencia, las habilidades y los empleos anteriores. Esto permite a los reclutadores encontrar el puesto de trabajo más adecuado para cada candidato. 

Sin embargo, procesar estas clasificaciones tan amplias requiere una gran cantidad de tókenes (unos 1000 por candidato, en promedio) y las listas de postulantes pueden llegar a contener miles de candidatos. 

Más del 50 % de las postulaciones comparten tókenes de prefijo (las aptitudes son similares). Esto convierte a LinkedIn Hiring Assistant en el caso práctico ideal para la tecnología PagedAttention y las funciones de procesamiento por lotes continuo de vLLM, que reducen la latencia, priorizan el alto rendimiento y disminuyen el uso del almacenamiento de la GPU. 

El tiempo por token generado (TPOT) refleja el tiempo promedio que tarda un modelo en generar cada token. Hasta ahora, vLLM ha ayudado a LinkedIn a mejorar su TPOT en un 7 %. 

Obtén más información sobre LinkedIn y el vLLM 

¿Cómo utiliza Amazon el vLLM?

Rufus, el asistente de compras con inteligencia artificial generativa de Amazon, tiene como objetivo mejorar la experiencia del cliente al reducir la fatiga de la toma de decisiones. Según se informa, Rufus prestó servicios a 250 millones de clientes en 2025, y la cifra sigue en aumento. 

La gran cantidad de clientes que utiliza el asistente de compras con inteligencia artificial generativa provocó un aumento de la complejidad de las inferencias. Amazon observó que no había chips ni instancias con suficiente memoria para que Rufus funcionara correctamente. 

Por lo tanto, priorizó la obtención de funciones de inferencia multinodo con capacidad de ajuste que mantienen la precisión a velocidades más altas y con menor latencia. Lo logró combinando una solución de arquitectura multinodo que se integró al vLLM para ofrecer una inferencia más fluida y rápida. 

Gracias al uso de la técnica de procesamiento por lotes continuo del vLLM, la arquitectura multinodo pudo programar de forma inteligente el procesamiento de la inferencia, de modo que la cantidad de tókenes no afectara la latencia ni el rendimiento. 

El uso del vLLM para aumentar la eficiencia y el rendimiento de sus LLM permite que Amazon amplíe proyectos de inteligencia artificial generativa como Rufus, que seguirán creciendo y evolucionando con sus clientes.

Obtén más información sobre Amazon y el vLLM 

El vLLM sigue siendo la base para el futuro de la inferencia de inteligencia artificial debido a sus características principales: 

  • Velocidad: Las funciones de inferencia mejoran constantemente. Los proveedores de hardware y modelos de vLLM contribuyen directamente al proyecto para mejorar la velocidad y la eficiencia de los modelos.
  • Comunidad: El vLLM cuenta con una gran comunidad open source que sigue creciendo. Las diez empresas que más contribuyen al desarrollo de modelos, entre las que se encuentran Deepseek, NVIDIA, Meta y Google, están creando modelos preconfigurados para el vLLM debido a su eficiencia.
  • Flexibilidad: El vLLM se puede implementar en la mayoría del hardware de inteligencia artificial, incluidas las GPU de NVIDIA y AMD, las TPU de Google, Intel Gaudi, AWS Neuron y otros aceleradores como MetaX, Rebellions y muchos más. La compatibilidad con diversos tipos de hardware brinda a las empresas la flexibilidad que necesitan para obtener resultados con los recursos que ya tienen.
  • Soporte inmediato: Cuando los desarrolladores más conocidos, como Meta o Google, lanzan un nuevo modelo, el vLLM ya es compatible con sus arquitecturas. Dicho de otro modo, con el vLLM, se tiene compatibilidad inmediata con los nuevos modelos. Por lo tanto, el vLLM es una solución accesible y lista para usar destinada a empresas que desean acelerar la implementación de sus modelos y reducir los costos. 

El vLLM también incluye llm-d, un marco de inferencia distribuida para gestionar LLM a gran escala en la nube híbrida.

Explora la comunidad vLLM en GitHub

Red Hat® AI es un conjunto de plataformas de inteligencia artificial basado en el compromiso de Red Hat con la tecnología de open source. Somos uno de los mayores colaboradores comerciales de vLLM, por lo que tenemos un amplio conocimiento sobre esta tecnología y la manera en la que respalda a nuestras plataformas de inteligencia artificial.

Con tecnología de vLLM, Red Hat AI optimiza el uso de la GPU y ofrece tiempos de respuesta más rápidos. Sus funciones de compresión de modelos aumentan la eficiencia de la inferencia sin afectar el rendimiento. Esto resulta útil en casos prácticos en los que los datos necesitan otra capa de seguridad en un entorno híbrido. 

Descubre lo que Red Hat AI puede hacer por tu empresa 

Red Hat AI incluye Red Hat OpenShift® AI, una plataforma para diseñar, implementar y gestionar modelos open source de inteligencia artificial con vLLM. Red Hat OpenShift AI combina la eficiencia del vLLM con proyectos adicionales impulsados por la comunidad open source como llm-d, que utiliza una arquitectura modular que proporciona nuevos niveles de control, uniformidad y una programación de recursos más eficiente. Incorpora elementos fundamentales que cambian la forma en que los LLM se ejecutan en Kubernetes y el modo en que las empresas amplían sus cargas de trabajo de inteligencia artificial. 

Comienza a utilizar Red Hat OpenShift AI

Campaign solution

La inteligencia artificial en Red Hat

Descubre las actividades que ofrece Red Hat sobre inteligencia artificial: desde eventos en vivo hasta demostraciones prácticas de productos e investigaciones técnicas profundas.

Introducción a la inteligencia artificial para las empresas: Guía para principiantes

Acelera tu proceso de adopción de la inteligencia artificial con Red Hat OpenShift AI y Red Hat Enterprise Linux AI. Obtén más información al respecto en esta guía para principiantes.

Más información

El concepto de MLOps

Las operaciones de aprendizaje automático (MLOps) son un conjunto de prácticas para los flujos de trabajo cuyo objetivo es optimizar el proceso de implementación y mantenimiento de los modelos de aprendizaje automático (ML).

¿Qué es la inferencia de la inteligencia artificial?

La inferencia de la inteligencia artificial ocurre cuando un modelo de inteligencia artificial proporciona una respuesta a partir de datos. Es la fase final de un proceso complejo de tecnología de machine learning (aprendizaje automático).

Los modelos base para la inteligencia artificial

Se trata de modelos de machine learning (aprendizaje automático) que se entrenan previamente para llevar a cabo diversas tareas.

IA/ML: lecturas recomendadas

Producto destacado

  • Red Hat AI

    Soluciones flexibles que agilizan el desarrollo y la implementación de las soluciones de inteligencia artificial en los entornos de nube híbrida.

Artículos relacionados