L'IA explicable, qu'est-ce que c'est ?

Publié 11 décembre 2025•11 minutes (temps de lecture)

Le terme « IA explicable » renvoie à un ensemble de techniques appliquées au cours du cycle de vie de l'apprentissage automatique (AA) dans le but d'améliorer la clarté et la transparence des résultats que fournit l'IA. Dans l'idéal, l'IA explicable répond aux questions suivantes :

Pourquoi le modèle s'est-il comporté de cette façon ?
Pourquoi obtient-on ce résultat et pas un autre ?
Dans quelles conditions le modèle s'est-il montré efficace ?
Dans quelles conditions le modèle s'est-il montré inefficace ?
Dans quelles conditions les résultats du modèle sont-ils fiables ?
Comment peut-on corriger une erreur ?

L'IA explicable doit pouvoir démontrer ce dont elle est capable et ce qu'elle comprend, expliquer ses actions passées, ses processus en cours et ses prochaines opérations, ainsi que rapporter les informations pertinentes qui sous-tendent ses actions. En d'autres termes, elle encourage les systèmes d'IA à se justifier.

Découvrir Red Hat AI

Au sein des entreprises, la prise de décisions repose de plus en plus sur des systèmes d'IA. Dans le secteur de la santé, l'IA peut être utilisée pour analyser des images ou établir des diagnostics médicaux. Dans les services financiers, elle peut servir à approuver des prêts et à automatiser des investissements.

Ces décisions entraînent des changements, ainsi que de potentiels risques pour les utilisateurs, les environnements et les systèmes. La confiance entre l'humain et l'IA repose sur la transparence et la responsabilité. Sans une bonne compréhension mutuelle, la confusion et les erreurs deviennent plus fréquentes, et des problèmes juridiques peuvent survenir.

Grâce à la transparence et à l'explicabilité, l'IA peut être aussi techniquement avancée que sûre, équitable et conforme aux valeurs et aux besoins des utilisateurs.

Interprétabilité et explicabilité

Dans le contexte de l'IA explicable, les termes explicabilité et interprétabilité sont souvent utilisés de manière interchangeable, ce qui peut prêter à confusion.

L'interprétabilité correspond au degré de compréhension de la logique interne d'un modèle par un utilisateur. Elle dépend de l'état d'un modèle et varie en intensité. Dans un modèle hautement interprétable, les fonctions sont claires par nature. Même un non-spécialiste peut comprendre la relation entre les données d'entrée et les résultats obtenus. Dans un modèle faiblement interprétable, le fonctionnement interne est trop complexe à comprendre pour l'utilisateur.

L'explicabilité renvoie au processus qui consiste à générer une justification ou une explication. Celui-ci s'appuie sur un ensemble de techniques qui révèlent comment et pourquoi un modèle complexe a pris une certaine décision. Si une logique est trop élaborée pour être interprétée directement, les techniques d'IA explicable peuvent clarifier le comportement du modèle.

Généralement, l'explicabilité externe est inutile si une haute interprétabilité suffit à assurer la transparence. Elle sera cependant nécessaire en cas de faible interprétabilité (un manque de transparence naturelle), pour établir la confiance et la compréhension au sein d'un modèle.

La technologie de l'apprentissage automatique est au cœur des applications d'IA. Elle permet d'utiliser un algorithme pour exploiter les données et créer un modèle. Tandis que la machine (un ordinateur) exploite des données et un algorithme pour apprendre, le data scientist va appliquer une ou plusieurs techniques d'entraînement pour créer un modèle.

Entraînement du modèle

Trois éléments déterminent la création d'un modèle d'apprentissage automatique.

1. Les données

Il peut s'agir de nombres, de textes, de fichiers audio, de clips vidéo ou d'images. La quantité de données nécessaires dépend de leur qualité ainsi que de la complexité du problème à résoudre et de l'algorithme sélectionné.

Avec un algorithme simple, comme la régression linéaire (pour trouver une ligne droite dans les données d'un diagramme de dispersion), seules quelques dizaines de points de données seront nécessaires. Il en faudra cependant des millions, voire des milliards avec un algorithme complexe, comme un réseau de neurones.

2. Un algorithme

L'algorithme est une sorte de recette ou de formule qu'utilise l'ordinateur au cours de son apprentissage. Il doit être correctement défini, avec un point d'arrêt précis. Un algorithme d'AA vise principalement à identifier des schémas dans les données afin de permettre à la machine de prendre des décisions sans programmation spécifique pour chaque tâche.

Certains algorithmes, tels que les arbres de décision, produisent un résultat simple et traçable. On peut les comparer à un organigramme, facile à comprendre et à corriger si besoin.

Il existe aussi l'algorithme de la forêt d'arbres de décision. Celui-ci implique d'entraîner plusieurs centaines d'arbres de décision, qui doivent ensuite « voter » pour générer le résultat final. Parce qu'aucun humain n'est capable de suivre la logique de centaines d'organigrammes, cet algorithme devient presque impossible à comprendre.

3. Une technique d'entraînement

Il s'agit des techniques que les équipes de science des données appliquent pour la conception, la mise en œuvre et le réglage fin du processus d'apprentissage des ordinateurs, aussi appelé entraînement :

Apprentissage supervisé : le modèle reçoit un ensemble de données dans lequel toutes les données d'entrée sont étiquetées avec la bonne réponse. Il doit ensuite étudier la relation entre les données d'entrée et les étiquettes qui leur sont associées. Cette méthode aide le modèle à réaliser des prédictions.
- Imaginons que l'on donne au modèle 100 000 photos d'ours et de chevaux, chacune étiquetée « ours » ou « cheval » en fonction de ce qu'elle représente. Le modèle apprend les différents schémas, jusqu'à être en mesure d'étiqueter correctement une nouvelle photo.
Apprentissage non supervisé : le modèle reçoit un ensemble de données sans étiquettes. Il doit identifier lui-même des schémas et des associations au sein de ces données. L'apprentissage non supervisé peut aider à révéler des schémas existants.
- Par exemple, si le modèle reçoit des données sur le comportement d'achat des clients, il peut découvrir qu'il existe une probabilité de 60 % que ceux qui achètent de la nourriture pour chien s'offrent aussi des chaussures de marche.
Apprentissage par renforcement : le modèle reçoit un objectif et un ensemble de règles, mais aucune donnée étiquetée. Cette méthode implique des interactions qui mènent soit à une « récompense », soit à une « pénalité ». Le modèle est ensuite capable de suggérer des actions à mettre en œuvre.
- Un modèle peut ainsi apprendre à jouer aux échecs en disputant des millions de parties. Les mouvements qui le font gagner entraînent une « récompense », tandis que ceux qui le font perdre entraînent une « pénalité ». Ce processus permet au modèle d'apprendre à jouer.

Une fois les données ingérées, la machine applique l'algorithme et la technique d'entraînement, ce qui crée un modèle.

Réseaux de neurones

Un réseau de neurones est un autre type d'algorithme d'apprentissage automatique. Calqué sur le cerveau humain, il fait passer les données à travers plusieurs couches de nœuds interconnectés (des neurones). À chaque couche, les données sont associées à des pondérations qui déterminent son passage à la couche suivante, jusqu'au résultat final.

En général, les réseaux de neurones possèdent une couche d'entrée et une couche de sortie. Certains renferment également des couches cachées qui peuvent réduire la transparence des modèles, surtout si elles sont nombreuses ou volumineuses. Lorsqu'un réseau de neurones comporte plusieurs couches cachées, il entre dans la catégorie des réseaux de neurones profonds. Il faut alors l'entraîner à l'aide de techniques d'apprentissage profond.

D'où viennent les couches cachées ?

Une couche cachée n'est pas une instance de machine qui pense par elle-même. Elle apparaît lorsque l'on demande à une machine d'établir ses propres connexions à l'intérieur des couches préconçues. À ce stade, la logique apprise devient trop complexe à comprendre pour l'humain.

Une boîte noire est un modèle d'IA qui est trop complexe pour être compris ou qui ne se justifie pas. Dans ce cas, même les spécialistes de la science des données et de l'ingénierie qui ont créé l'algorithme ne peuvent expliquer exactement comment le modèle parvient au résultat qu'il propose.

Prenons l'exemple de GPT4, l'un des réseaux de neurones qui alimente ChatGPT. Pour générer un seul mot, il effectue plus de 3 000 milliards de calculs mathématiques. À la main, cette opération prendrait 95 ans à la vitesse d'un calcul par seconde. Il est possible de vérifier la validité de ce type de résultat, mais pas les processus qui ont permis de le générer.

Le manque d'interprétabilité des modèles de type boîte noire peut avoir des conséquences néfastes lorsqu'ils sont utilisés pour prendre des décisions sensibles, en particulier dans des secteurs à haut risque tels que la santé, les transports, la sécurité, la défense, l'aéronautique, la finance ou encore la justice civile et pénale.

L'IA explicable permet d'observer ce qui se passe à l'intérieur des boîtes noires.

Dangers des boîtes noires

Le mystère qui entoure les systèmes de boîte noire n'est pas dangereux par nature. Cependant, lorsque les enjeux sont élevés, ces systèmes peuvent effectivement présenter des risques :

Biais et discrimination : si les systèmes d'IA sont entraînés à partir de données biaisées, les schémas ont tendance à se répéter. Imaginons un outil de recrutement dont l'entraînement repose sur les embauches « réussies » de cadres des 20 dernières années. Si ceux-ci sont majoritairement des hommes, le système risque d'apprendre à pénaliser les CV comportant des noms féminins.

Manque de responsabilité : lorsqu'un système de boîte noire commet une erreur de jugement, il est impossible de retracer son schéma logique. Si une victime est blessée, des complexités juridiques se posent, car quelqu'un (ou quelque chose) doit être tenu responsable, par exemple lorsqu'un appareil médical ou un véhicule autonome doté d'un système de boîte noire est à l'origine d'une erreur de diagnostic ou d'un accident.

Lorsqu'elles ne peuvent pas comprendre le fonctionnement interne d'un système d'IA, les équipes de développement ont beaucoup de mal à le corriger ou à l'améliorer. Une logique cachée demande plus d'efforts pour établir un lien de confiance avec le système.

Boîte noire et boîte blanche

La boîte noire s'oppose à la boîte blanche, aussi appelée boîte transparente. Il s'agit d'un modèle au fonctionnement transparent qui donne aux utilisateurs la possibilité de retracer tout le processus décisionnel, des données d'entrée jusqu'au résultat. Si on reprend le principe de l'interprétabilité, on peut considérer une boîte blanche comme un modèle interprétable, tandis qu'une boîte noire nécessitera un certain niveau d'explicabilité.

Si les modèles de boîte noire sont utilisés malgré l'existence des boîtes blanches, c'est à des fins de puissance et de performances. Les modèles de boîte blanche sont plus faciles à interpréter, car leur fonctionnement est moins compliqué. Ils ont donc tendance à être plus petits et à offrir moins de puissance et de capacités de calcul.

Afin de bénéficier d'un plus haut niveau de puissance et de précision, les data scientists peuvent opter pour une boîte noire. Ce sera par exemple la meilleure solution pour entraîner un modèle dans un domaine complexe et nuancé, comme l'IA générative.

L'IA explicable aide les utilisateurs à comprendre d'où viennent les résultats que proposent les systèmes d'IA. Les avantages sont nombreux :

Consolidation de la confiance : pour réussir la mise en œuvre de technologies telles que l'IA agentique, il faut un lien de confiance entre les algorithmes et les utilisateurs. L'IA explicable sert principalement à donner confiance dans les résultats que proposent les applications d'IA.

Atténuation des risques : l'IA explicable améliore l'évaluation des modèles, ce qui permet de choisir la solution la plus adaptée aux besoins.

Amélioration de la collaboration : l'utilisation d'un modèle explicable facilite les échanges entre les différentes équipes. Par exemple, un modèle d'apprentissage automatique déployé en milieu hospitalier peut prédire un risque élevé d'infection chez un patient. L'IA explicable va montrer les principaux facteurs qui ont mené à cette prédiction (une fréquence cardiaque élevée, une pression artérielle basse et une saturation en oxygène faible). L'équipe médicale peut comprendre et valider ces facteurs, et ainsi s'assurer que le modèle s'appuie sur des données médicales fiables.

Accélération de la résolution des problèmes : lorsque les data scientists comprennent la logique d'un modèle, ils sont en mesure de développer des systèmes, de les déboguer et de prendre des décisions plus facilement et plus rapidement. Si l'IA explicable ne rend pas les ordinateurs plus rapides (elle alourdit même la charge de calcul), elle fait toutefois gagner du temps aux utilisateurs.

Renforcement de la conformité réglementaire : l'IA explicable peut aider les entreprises à respecter les réglementations et les lois sur la confidentialité, notamment le règlement général sur la protection des données de l'Union européenne, qui octroie à chacun le droit de connaître la logique d'une prise de décision automatisée ainsi que l'importance et les conséquences prévues de ce traitement pour la personne concernée. Il est ainsi plus facile de comprendre les décisions, en sachant exactement sur quels points de données et facteurs elles reposent.

En Californie, la loi TFAIA (Transparency in Frontier Artificial Intelligence Act) oblige les équipes de développement à publier des rapports de transparence sur les risques de leur modèle et sur les mesures prises pour les réduire. Avec l'IA explicable, ces risques sont plus facilement identifiables.

Réduction de la dérive des modèles : les performances des modèles peuvent dériver, c'est-à-dire se dégrader au fil du temps et de l'ajout de données. L'IA explicable aide à analyser les modèles et à générer des alertes en cas de dérive par rapport à l'intention d'origine.

Pour suivre l'évolution rapide de l'IA, le domaine de l'IA explicable ne cesse de se développer. Même s'il est nécessaire de mettre en œuvre cette technologie, les solutions actuellement proposées ne sont pas sans défauts. Voici les principales limites :

Complexité technique des résultats : actuellement, les méthodes d'IA explicable sont très techniques et s'adressent plus aux spécialistes de l'AA qu'aux utilisateurs ordinaires. Il faut donc prévoir davantage de formations techniques ou fournir une explication simplifiée des problèmes complexes.

Haut niveau de coûts de calcul : les techniques d'IA explicable sont coûteuses, car les algorithmes d'explication doivent effectuer de nombreux calculs afin de comprendre l'origine d'un résultat. Il est parfois nécessaire d'exécuter le modèle des milliers de fois pour clarifier une seule prédiction.

Risques de sécurité : en ouvrant la boîte noire pour comprendre un modèle, on risque aussi de découvrir comment le tromper. Les vulnérabilités ainsi créées permettent aux acteurs malveillants de déjouer le système et de compromettre la sécurité par rétro-ingénierie.

Compréhension et confiance

Il convient de distinguer la compréhension du fonctionnement d'un processus et la confiance dans ce processus. Une bonne connaissance de la structure d'un skateboard ne donne pas forcément assez de confiance pour s'élancer sur une rampe.

On peut se demander s'il ne devient pas dangereux de se reposer autant sur l'IA. La prudence est de mise, car une confiance excessive dans un système peut entraîner des erreurs inattendues. Cependant, sans un minimum de confiance, les avantages qu'offrent ces systèmes risquent d'être perdus.

L'objectif de l'IA explicable est d'offrir le niveau de confiance optimal. Le contexte dont bénéficient les utilisateurs leur donne toutes les clés pour s'en remettre au système.

La mise en œuvre de l'IA explicable implique plus de transparence tout au long du cycle de vie de l'apprentissage automatique, de la conception initiale à la surveillance. Il existe plus d'une façon d'expliquer les résultats que propose un algorithme d'AA ou d'IA. L'approche adoptée dépend de la structure du modèle et du profil des utilisateurs finaux. Voici les facteurs à prendre en compte :

Modèles d'IA explicable généraux et locaux : quel est le niveau d'explication requis ?

Les explications générales montrent les principaux schémas à l'œuvre dans la prise de décision. Par exemple, un modèle qui prédit la validation des prêts peut donner l'explication générale suivante : « Ce modèle préfère accepter les candidats ayant une solvabilité élevée. »
Les explications locales présentent en détail les facteurs qui ont influé sur une seule décision. Pour notre exemple de modèle de validation des prêts, l'explication locale pourra être la suivante : « La demande de prêt de Jean Martin a été refusée le 19 novembre en raison d'une note de solvabilité de seulement 520 et de revenus inférieurs au seuil de 35 000 €. »

Modèles d'IA explicable directs et post hoc : comment le modèle fournit-il des explications ?

Les modèles directs produisent des résultats traçables et transparents dès le départ, à l'instar d'une boîte blanche.
Les modèles post hoc ne sont pas conçus pour être interprétables, car ce sont des boîtes noires. Toutefois, des algorithmes permettent d'en étudier le fonctionnement à l'issue de leur entraînement. Ces algorithmes aident à analyser les résultats et à obtenir une explication :
- LIME (Local Interpretable Model-agnostic Explanations) : cette technique manipule les données d'entrée pour créer une série légèrement différente de données artificielles. Elle entre ces nouvelles données dans le modèle et observe les résultats, comme si elle créait des substituts interprétables pour expliquer la prédiction d'origine du modèle de boîte noire.
- SHAP (SHapley Additive exPlanations) : cette méthode basée sur la théorie des jeux coopératifs calcule la contribution de chaque variable d'entrée et prend en compte toutes les combinaisons possibles de variables. Elle offre une vue unifiée du rôle de chaque variable dans le résultat et des variables qui mènent aux prédictions.

Modèles d'IA explicable fondés sur les données et sur les modèles : quel type d'explication est nécessaire ?

Les modèles de données fournissent une explication qui s'appuie sur l'influence des données d'entrée sur la prédiction.
Les modèles d'IA explicable fondés sur les modèles tiennent compte du fonctionnement interne du modèle.

Les pratiques d'IA responsable, telles que les directives éthiques, la transparence et la réduction des biais, sont essentielles pour favoriser la mise en œuvre de systèmes d'IA fiables qui profitent à l'ensemble de la société.

Red Hat® AI est une plateforme de produits qui accélèrent l'innovation en matière d'IA et qui réduisent les coûts d'exploitation liés au développement et à la distribution de solutions d'IA dans les environnements de cloud hybride.

L'offre Red Hat AI s'appuie sur des technologies Open Source pour relever les défis de l'IA que les entreprises rencontrent à grande échelle. Elle donne aux clients les moyens nécessaires pour mettre en œuvre un cadre de confiance, l'explicabilité, la gouvernance et les garde-fous de l'IA, la détection des biais et des dérives, ainsi que le contrôle des versions.

Red Hat AI intègre des outils qui permettent aux utilisateurs de surveiller et gérer l'ensemble du cycle de vie des modèles d'IA. Ces outils reposent en partie sur TrustyAI, un ensemble de technologies Open Source d'IA responsable auquel nous contribuons.

En savoir plus

L'inférence d'IA, qu'est-ce que c'est ?

L'inférence d'intelligence artificielle est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. Il s'agit de l'étape finale d'un processus complexe d'apprentissage automatique.

IA : un modèle de fondation, qu'est-ce que c'est ?

Un modèle de fondation est un type de modèle d'apprentissage automatique (AA) qui est préentraîné pour réaliser une série de tâches.

L'IA générative, qu'est-ce que c'est ?

L'IA générative est une technologie d'intelligence artificielle capable de créer des contenus à partir de modèles d'apprentissage profond entraînés avec de grands ensembles de données.

IA/ML : ressources recommandées

Produit recommandé

Red Hat AI

Des solutions flexibles qui accélèrent le développement et le déploiement de solutions d'IA dans les environnements de cloud hybride.

L'IA explicable, qu'est-ce que c'est ?

Interprétabilité et explicabilité

4 principes clés à prendre en compte pour mettre en œuvre des technologies d'IA

Entraînement du modèle

Réseaux de neurones

Dangers des boîtes noires

Boîte noire et boîte blanche

Compréhension et confiance

Artificial Intelligence (AI)

Déployez l'IA avec Red Hat : bénéficiez de notre expertise, de nos formations et de notre assistance

En savoir plus

L'inférence d'IA, qu'est-ce que c'est ?

IA : un modèle de fondation, qu'est-ce que c'est ?

L'IA générative, qu'est-ce que c'est ?

IA/ML : ressources recommandées

Red Hat AI

Plateformes

Outils

Essayer, acheter et vendre

Communication

About Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links