Accélérer l'inférence d'IA grâce à vLLM : trois cas d'utilisation dans des entreprises

Copier l'URL

Le framework vLLM est un serveur d'inférence qui accélère l'inférence d'IA générative dans les grands modèles de langage (LLM) en optimisant l'utilisation de la mémoire et des processeurs graphiques (GPU). 

Comme les GPU sont mieux exploités, les LLM parviennent à effectuer les calculs plus rapidement et à grande échelle, un impératif pour les entreprises qui utilisent des applications en temps réel telles que des dialogueurs (ou chatbots) ou des workflows multimodaux. 

Cet article explique comment trois entreprises bien connues tirent parti de vLLM.

En savoir plus sur vLLM

Lors du processus d'inférence, les LLM utilisent des paires clé‑valeur pour effectuer très rapidement un grand nombre de calculs. 

Ces paires permettent d'attribuer une valeur numérique à des jetons textuels (termes ou phrases) afin de comprendre le langage et de calculer les réponses. Ainsi, chaque jeton textuel (clé) est associé à un nombre (valeur) qui permet au LLM de générer une réponse. 

Les paires clé-valeur interviennent au cours des deux principales phases de l'inférence d'IA : 

  • Préremplissage : phase durant laquelle le modèle traite l'instruction générative fournie par l'utilisateur. Toutes les paires clé-valeur des jetons textuels sont regroupées dans le cache clé-valeur, qui est utilisé par le modèle comme mémoire à court terme.
  • Décodage : phase durant laquelle le modèle génère de nouveaux jetons textuels. Il utilise le cache clé-valeur existant pour calculer les paires clé-valeur d'une réponse. 

Les LLM enregistrent dans le cache clé-valeur les paires clé-valeur de chaque jeton textuel traité. Selon la longueur de l'instruction générative et le nombre de résultats, la taille du cache augmente et celui-ci occupe une grande partie de la mémoire d'un LLM. Les systèmes traditionnels de gestion de la mémoire des LLM n'optimisent pas le classement des calculs ni l'utilisation de la mémoire, ce qui ralentit beaucoup ces modèles. 

Le framework vLLM s'appuie sur une technique de gestion de la mémoire qui analyse l'utilisation du cache clé-valeur durant l'inférence. Il récupère les données du cache afin d'identifier les paires clé-valeur qui se répètent pour éviter la fragmentation de la mémoire et alléger la charge de travail du LLM. Ce processus permet d'optimiser l'utilisation de la mémoire des GPU et d'accélérer l'inférence. 

En savoir plus sur les avantages de la mise à l'échelle de l'IA

4 principes clés à prendre en compte pour mettre en œuvre des technologies d'IA

Le framework vLLM emploie différentes techniques et technologies pour réduire les besoins en stockage et accélérer l'inférence : 

  • Traitement par lots continu : phase durant laquelle le LLM lance le processus d'inférence pour le lot suivant de jetons textuels, même si les calculs du jeton précédent ne sont pas encore terminés (vLLM peut gérer plusieurs tâches).
  • PagedAttention : technologie innovante qui utilise le cache clé-valeur pour mémoriser les jetons textuels précédents dans sa propre mémoire plutôt que dans celle du GPU.
  • Décodage spéculatif : technique qui utilise un modèle plus petit et plus rapide pour prédire les jetons textuels à venir, ce qui permet d'accélérer et améliorer le préremplissage.
  • Quantification : processus qui consiste à compresser les paramètres des grands modèles dans un format réduit afin de diminuer les besoins en matière de stockage sans dégrader la précision. Il existe plusieurs méthodes de quantification pour personnaliser les modèles.

Même si la réduction du nombre de jetons textuels à traiter ou un gain de quelques secondes lors de la génération d'une réponse peuvent sembler insignifiants, ces techniques d'optimisation de la mémoire permettent pourtant aux entreprises d'accélérer les processus, de réduire les dépenses et d'économiser les ressources lorsqu'elles les appliquent à des milliers de charges de travail d'IA, de GPU et d'opérations d'inférence. 

Elles s'avèrent particulièrement intéressantes pour les entreprises qui souhaitent déployer l'IA à grande échelle. 

Découvrir comment l'inférence distribuée accélère l'IA à grande échelle

Les entreprises utilisent l'inférence d'IA dans le cadre de charges de travail volumineuses qui impliquent un grand nombre de variables. Pour déployer de manière cohérente des LLM à grande échelle, il faut cependant une puissance de calcul considérable, de nombreuses ressources et des compétences spécialisées

Le framework vLLM peut relever ces défis en optimisant l'utilisation du matériel nécessaire pour exécuter l'inférence d'IA. Il convient donc particulièrement aux entreprises des secteurs dans lesquels la flexibilité et le contrôle comptent autant que la rapidité. 

vLLM est une solution Open Source qui offre aux entreprises les avantages suivants : 

  • Possession et gestion des GPU
  • Contrôle des données
  • Possibilité d'essayer les nouveaux modèles dès leur sortie

Ce niveau de liberté réduit le coût par jeton textuel et limite les problèmes de confidentialité. 

Il est possible de déployer vLLM sur plusieurs équipements, notamment des GPU NVIDIA et AMD, des unités de traitement de tenseur Google, des accélérateurs Intel Gaudi et AWS Neuron. Au-delà du matériel, ce framework fonctionne également dans le cloud, dans le datacenter ou à la périphérie du réseau.

En savoir plus sur l'utilisation des frameworks vLLM et Ollama

Quel que soit le domaine, des ressources humaines aux jeux en ligne, la mise à l'échelle de l'inférence est un processus qui devient rapidement complexe. 

Les exemples suivants montrent comment des entreprises utilisent le projet Open Source vLLM. Ces entreprises ne sont pas des clients directs de Red Hat, mais elles bénéficient du soutien de l'ensemble de la communauté vLLM ainsi que des technologies qu'elle propose. 

vLLM chez Roblox

Roblox est une plateforme de jeu en ligne qui compte des millions d'utilisateurs dans le monde. Elle permet à ses membres de créer leur propre expérience de jeu, ainsi que de jouer aux jeux créés par d'autres utilisateurs. 

La plateforme propose depuis peu la fonction Assistant, un dialogueur basé sur l'IA qui aide les utilisateurs à créer des contenus. Cette nouveauté a fait augmenter le nombre de jetons textuels traités jusqu'à plus d'un milliard par semaine. D'autres fonctions telles que la traduction de la messagerie instantanée par IA en temps réel et le modèle de sécurisation des messages vocaux complexifient également l'inférence. La plateforme traite plusieurs millions d'interactions entre les joueurs, et les différents formats utilisés augmentent le nombre de jetons textuels à traiter. Par conséquent, l'inférence nécessite des ressources supplémentaires. 

Pour traiter ces demandes croissantes, Roblox a choisi vLLM comme principal moteur d'inférence. La plateforme s'appuie essentiellement sur les capacités de décodage spéculatif de vLLM pour proposer des fonctions linguistiques à ses clients du monde entier. Depuis l'adoption de vLLM, Roblox a enregistré une diminution de 50 % de la latence et peut désormais traiter 4 milliards de jetons textuels chaque semaine. 

Avec vLLM, Roblox peut gérer la mise à l'échelle et répondre aux demandes des utilisateurs à mesure que la plateforme se développe. Roblox a sélectionné vLLM parce que ce framework est en adéquation avec son engagement envers les technologies Open Source. 

Retrouvez plus d'informations sur l'utilisation de vLLM chez Roblox dans les sessions enregistrées des vLLM Office Hours

En savoir plus sur l'utilisation de vLLM chez Roblox

vLLM chez LinkedIn

LinkedIn a choisi d'utiliser vLLM pour prendre en charge de multiples cas d'utilisation de l'IA générative et ainsi répondre aux besoins variés de ses très nombreux utilisateurs. 

LinkedIn figure parmi les plus grands réseaux sociaux professionnels et compte plus d'un milliard d'utilisateurs dans plus de 200 pays. Actuellement, le framework vLLM permet à LinkedIn de prendre en charge plus de 50 cas d'utilisation de l'IA générative, comme la fonction LinkedIn Hiring Assistant

Cet assistant au recrutement s'appuie sur des calculs de classification complexes pour filtrer les qualifications des candidats, notamment les années d'expérience, les compétences et les postes précédemment occupés. Il aide ainsi les recruteurs à identifier les profils qui correspondent le mieux à l'offre d'emploi. 

Le traitement de classifications aussi diverses nécessite toutefois un grand nombre de jetons textuels (1 000 par candidat en moyenne), et certaines offres peuvent recevoir plusieurs centaines de réponses. 

Plus de la moitié des candidatures partagent les mêmes jetons textuels de type préfixe, tels que les titres de rubriques des CV, car ces derniers comportent de nombreuses informations similaires. C'est pourquoi LinkedIn Hiring Assistant représente un cas d'utilisation idéal pour la technologie PagedAttention et les capacités de traitement par lots continu de vLLM. Ces techniques permettent de réduire la latence, d'accorder la priorité aux débits élevés et d'alléger les besoins en matière de mémoire GPU. 

La latence par jeton textuel (Time Per Output Token ou TPOT) correspond à la durée moyenne nécessaire au modèle pour générer chaque jeton individuel. Jusqu'à présent, le framework vLLM a permis à LinkedIn d'améliorer cette latence de 7 %. 

En savoir plus sur l'utilisation de vLLM chez LinkedIn

vLLM chez Amazon

Rufus est l'assistant d'achat alimenté par l'IA générative d'Amazon. Il a pour objectif d'améliorer l'expérience des clients en les aidant à faire leur choix. Rufus aurait déjà servi à 250 millions de clients en 2025 et ce nombre ne cesse d'augmenter. 

L'utilisation massive de cet assistant d'achat alimenté par l'IA générative a complexifié le processus d'inférence. Amazon s'est rendu compte qu'aucune puce ou instance indépendante ne disposerait de suffisamment de mémoire pour exécuter Rufus de manière fluide. 

L'entreprise souhaitait disposer de capacités d'inférence évolutives sur plusieurs nœuds pour préserver la précision à des débits plus élevés et avec une latence inférieure. Elle a donc choisi d'associer une solution d'architecture à plusieurs nœuds avec vLLM pour exécuter des opérations d'inférence plus fluides et rapides. 

Grâce à la technique de traitement par lots continu de vLLM, l'ordonnancement intelligent de l'inférence a pu être mis en place pour que le volume de jetons textuels n'affecte ni la latence ni les performances. 

En utilisant vLLM pour améliorer l'efficacité et le débit de ses LLM, Amazon a réussi à mettre à l'échelle des projets d'IA générative qui se développent et évoluent en fonction du nombre de clients, comme Rufus.

En savoir plus sur l'utilisation de vLLM chez Amazon 

Le framework vLLM va continuer de former une base solide pour l'inférence d'IA grâce à ses principaux atouts : 

  • Vitesse : les capacités d'inférence ne cessent de s'améliorer. Les fournisseurs de modèles et d'équipements matériels pour vLLM contribuent directement au projet afin d'augmenter la vitesse ainsi que l'efficacité des modèles.
  • Communauté : vLLM s'appuie sur une solide communauté Open Source en pleine croissance. Les dix principaux contributeurs aux modèles, dont DeepSeek, NVIDIA, Meta et Google, créent des modèles déjà compatibles avec vLLM afin de profiter de son efficacité.
  • Flexibilité : il est possible de déployer vLLM sur la plupart des équipements matériels d'IA, notamment les GPU NVIDIA et AMD, les unités de traitement de tenseur Google, les accélérateurs d'IA Intel Gaudi, AWS Neuron ainsi que d'autres accélérateurs, notamment MetaX ou Rebellions. Ces nombreuses options matérielles offrent aux entreprises la flexibilité dont elles ont besoin pour obtenir des résultats à l'aide des ressources dont elles disposent déjà.
  • Prise en charge dès le déploiement : vLLM connaît déjà les architectures des modèles conçus par les principaux créateurs, tels que Meta ou Google. Ainsi, lorsqu'ils déploient de nouveaux modèles, vLLM est capable de les prendre en charge immédiatement. Le framework vLLM représente donc une solution accessible et prête à l'emploi pour les entreprises qui cherchent à accélérer le déploiement de leurs modèles et à réduire les coûts. 

vLLM comprend également llm-d, un framework d'inférence distribuée qui permet de gérer les LLM à grande échelle dans le cloud hybride.

Découvrir la communauté vLLM sur GitHub

Red Hat® AI est une suite de plateformes d'IA qui s'appuie sur l'engagement de Red Hat en faveur de l'Open Source. Chez Red Hat, nous contribuons largement au projet vLLM. Nous maîtrisons sa technologie et nous comprenons son intérêt pour nos plateformes d'IA.

Basée sur vLLM, l'offre Red Hat AI optimise l'utilisation des GPU et accélère les temps de réponse. Ses fonctionnalités de compression des modèles permettent d'augmenter l'efficacité de l'inférence sans diminuer les performances, ce qui est particulièrement avantageux pour les cas d'utilisation où les données hébergées dans un environnement hybride nécessitent un niveau de sécurité supérieur. 

Découvrir les atouts de Red Hat AI

L'offre Red Hat AI comprend Red Hat OpenShift AI, une plateforme qui permet de créer, déployer et gérer des modèles d'IA Open Source avec vLLM. Red Hat OpenShift AI associe l'efficacité de vLLM à d'autres projets développés par la communauté Open Source tels que llm-d, qui s'appuie sur une architecture modulaire pour renforcer le contrôle et la cohérence tout en offrant un ordonnancement des ressources plus efficace. Cette solution intègre des bases techniques qui révolutionnent l'exécution native des LLM sur Kubernetes et la mise à l'échelle des charges de travail d'IA dans l'entreprise. 

En savoir plus sur Red Hat OpenShift AI

Campaign solution

L'intelligence artificielle chez Red Hat

Découvrez les événements en direct, les démonstrations de produits et les études approfondies que nous proposons autour de l'IA.

Se lancer avec l'IA en entreprise : guide pour les débutants

Consultez ce guide pour les débutants afin de savoir comment les solutions Red Hat OpenShift AI et Red Hat Enterprise Linux AI peuvent accélérer votre parcours d'adoption de l'IA.

En savoir plus

L'inférence d'IA, qu'est-ce que c'est ?

L'inférence d'intelligence artificielle est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. Il s'agit de l'étape finale d'un processus complexe d'apprentissage automatique.

IA : un modèle de fondation, qu'est-ce que c'est ?

Un modèle de fondation est un type de modèle d'apprentissage automatique (AA) qui est préentraîné pour réaliser une série de tâches.

L'IA générative, qu'est-ce que c'est ?

L'IA générative est une technologie d'intelligence artificielle capable de créer des contenus à partir de modèles d'apprentissage profond entraînés avec de grands ensembles de données.

IA/ML : ressources recommandées

Produit recommandé

  • Red Hat AI

    Des solutions flexibles qui accélèrent le développement et le déploiement de solutions d'IA dans les environnements de cloud hybride.

Articles associés