La velocidad de la innovación en los modelos de lenguaje de gran tamaño (LLM) es asombrosa, pero a medida que las empresas trasladan estos modelos a la producción, la conversación cambia: ya no se trata solo de la escalabilidad; se trata de la eficiencia por token y del uso inteligente y específico de la informática.
En pocas palabras, no todas las peticiones requieren el mismo nivel de razonamiento. Si un usuario tiene una pregunta simple, como "¿Cuál es la capital de Carolina del Norte?" no es necesario un proceso de razonamiento de varios pasos para, por ejemplo, una proyección financiera. Si las empresas utilizan modelos de razonamiento pesado para cada solicitud, el resultado será costoso e ineficiente. Este dilema es lo que llamamos el desafío de implementar presupuestos racionales, y es la razón por la cual Red Hat desarrolló el enrutador semántico de vLLM, un proyecto open source que selecciona de manera inteligente el mejor modelo para cada tarea, lo que optimiza los costos y la eficiencia, a la vez que maximiza la facilidad de uso.
¿Qué es el enrutador semántico de vLLM?
El enrutador semántico de vLLM es un sistema open source que funciona como una capa de enrutamiento de solicitudes inteligente y económica para el motor de inferencia vLLM, que es muy eficiente. Imagínate que es el canal de inferencia de los LLM que toma las decisiones, aborda los desafíos de eficiencia a través del enrutamiento dinámico y con conocimiento de la semántica:
- Utiliza un clasificador ligero, como ModernBERT u otros modelos entrenados previamente, para analizar la intención y la complejidad de la solicitud;
- Enruta solicitudes sencillas a un LLM más pequeño y rápido o a un modelo sin razonamiento para ahorrar recursos informáticos;
- Dirige las solicitudes complejas que requieren un análisis profundo a modelos más potentes y con capacidad de razonamiento.
El objetivo del enrutador semántico de vLLM es garantizar que cada token generado agregue valor. Escrito en Rust y con el marco Candle de Hugging Face, el enrutador ofrece baja latencia y alta simultaneidad, y está diseñado para un alto rendimiento.
El enrutador semántico de vLLM aprovecha el potencial del open source para promover la flexibilidad de los modelos, ya que ofrece un cambio eficiente de modelos y un enrutamiento con reconocimiento semántico. Esto permite que los desarrolladores tengan un control detallado sobre la eficiencia y la precisión al elegir automáticamente el LLM o el modo de razonamiento adecuado para la tarea. Y lo que es igual de importante, el proyecto admite la implementación en la nube a través de la integración con Kubernetes mediante el plugin Envoy ext_proc. Esto significa que el enrutador semántico de vLLM está diseñado para implementarse, gestionarse y escalarse en todos los entornos de nube híbrida con Red Hat OpenShift, lo cual es totalmente compatible con las mejores prácticas nativas de la nube en cualquier nube.
Enrutador semántico vLLM y llm-d
En la práctica, el enrutador semántico de vLLM puede encontrar muchos casos prácticos de implementación. Los usuarios empresariales pueden aplicar los mismos conceptos de enrutamiento en las implementaciones de llm-d en todos los clústeres: un equipo puede usar un modelo GPT-OSS-120B que se ejecuta en un clúster H100 de producción, mientras que otro equipo accede al mismo modelo en el hardware A100 para la experimentación. Las funciones de clasificación del enrutador semántico de vLLM integradas en llm-d permiten que las solicitudes compartan un único punto de entrada y se dirijan de manera inteligente al extremo de la infraestructura correspondiente, lo cual garantiza un rendimiento óptimo en función del usuario, la política y los recursos informáticos disponibles.
El enrutador semántico de vLLM admite el almacenamiento en caché semántico y la detección de fugas cuando se implementa con llm-d. A través del almacenamiento en caché semántico, las peticiones repetidas o similares pueden reutilizar los resultados de inferencias actuales, lo que reduce la sobrecarga informática de las consultas redundantes, lo cual resulta especialmente útil en los entornos de producción con patrones de preguntas o sesiones de chat recurrentes. La función de detección de fugas aprovecha la capa de enrutamiento distribuido de llm-d para identificar las solicitudes que no cumplen con las normas antes de que lleguen al motor de inferencia. Esta combinación proporciona a las empresas un flujo de trabajo de inferencia más seguro, eficiente y que tiene en cuenta las políticas.
Valor empresarial y comunitario
Para las empresas, el uso del enrutador semántico de vLLM se traduce directamente en un valor empresarial medible, ya que ayuda a resolver el dilema entre el costo y la precisión. Los indicadores del proyecto, que incluyen el ajuste automático del modo de razonamiento con el modelo MMLU-Pro y Qwen3 30B, permitieron aumentar significativamente la eficiencia. La precisión en las tareas complejas aumentó un 10,2 %, y la latencia y el uso de tokens disminuyeron un 47,1 % y un 48,5 %, respectivamente. Estos resultados indican que el enrutador semántico de vLLM no solo ayuda a reducir los costos operativos generales, sino que también puede ayudar a gestionar el espacio de los modelos de razonamiento, lo que lleva a un uso de energía más sostenible.
Cuando comencé a desarrollar el enrutador semántico de vLLM, sabía que este tipo de enrutamiento con conocimiento del razonamiento se limitaba en gran medida a los sistemas cerrados y propietarios. El ADN open source de Red Hat exigía que incorporásemos esta función esencial a la comunidad open source para que todos pudieran acceder a ella de forma transparente. La recepción inmediata confirmó su necesidad. El proyecto cobró gran impulso rápidamente en la comunidad, y obtuvo más de 2000 estrellas y casi 300 bifurcaciones en GitHub en los dos meses después de su lanzamiento. La muestra de apoyo de la comunidad open source confirmó lo que ya sabía sobre la forma en que se diseñará el futuro de la infraestructura de inteligencia artificial: de forma colaborativa y abierta.
Red Hat tiene una visión clara para la era de la inteligencia artificial: independientemente del modelo, el acelerador subyacente o el entorno de implementación, el vLLM está destinado a ser el estándar abierto definitivo para la inferencia en la nueva nube híbrida. El enrutador lo cumple.
La evolución de la inferencia pasa de la pregunta "¿podemos ejecutarla?" a "¿cómo podemos ejecutarla mejor?" El enrutador semántico de vLLM proporciona esa capa informática sofisticada que tiene en cuenta las tareas, lo cual proporciona a las empresas las herramientas open source que necesitan para diseñar una inteligencia artificial eficiente, responsable y lista para las empresas. Únete a nosotros mientras planificamos la próxima fase de la inferencia de LLM visitando el sitio web del proyecto y la comunidad de enrutadores semánticos de vLLM en GitHub.
Sobre el autor
Dr. Huamin Chen is a Senior Principal Software Engineer at Red Hat's CTO office. He is one of the founding members of Kubernetes SIG Storage, member of Ceph, Knative and Rook. He co-founded the Kepler project and drives community efforts for Cloud Native Sustainability.
Más como éste
Cracking the inference code: 3 proven strategies for high-performance AI
Solving the scaling challenge: 3 proven strategies for your AI infrastructure
Days of Future Open | Command Line Heroes
Air-gapped Networks | Compiler
Navegar por canal
Automatización
Las últimas novedades en la automatización de la TI para los equipos, la tecnología y los entornos
Inteligencia artificial
Descubra las actualizaciones en las plataformas que permiten a los clientes ejecutar cargas de trabajo de inteligecia artificial en cualquier lugar
Nube híbrida abierta
Vea como construimos un futuro flexible con la nube híbrida
Seguridad
Vea las últimas novedades sobre cómo reducimos los riesgos en entornos y tecnologías
Edge computing
Conozca las actualizaciones en las plataformas que simplifican las operaciones en el edge
Infraestructura
Vea las últimas novedades sobre la plataforma Linux empresarial líder en el mundo
Aplicaciones
Conozca nuestras soluciones para abordar los desafíos más complejos de las aplicaciones
Virtualización
El futuro de la virtualización empresarial para tus cargas de trabajo locales o en la nube