Cet article est associé à un projet que nous avons développé ou soutenu :
Speechmap Explorer
Les biais culturels, politiques ou idéologiques sont des sujets très souvent évoqués mais très peu illustrés ou même mesurés. Et pour cause : les données manquent et l’évaluation est subjective. Pourtant, la question de l’alignement des biais entre le LLM et le client (pas nécessairement l’utilisateur !) est cruciale alors que les LLM sont de plus en plus intégrés dans des systèmes auxquels le client délègue une partie de son autorité de décision à l’IA, consciemment ou inconsciemment. L’administration américaine s’est d’ailleurs inquiétée de ces biais l’été dernier, de façon un peu naïve puisqu’il n’existe pas à ce jour d’outils pour identifier ces problèmes. Pour rester dans la course aux contrats du gouvernement américain, OpenAI ou Anthropic ont publié récemment des recherches sur ces biais, sans pour autant apporter de solutions.
L’objet d’un projet qui m’a largement occupé en 2025 était justement de mettre à disposition de la communauté des données et des outils aujourd’hui inexistants pour trouver des solutions. Il n’est pas du tout évident que l’on puisse un jour automatiser la détection de façon robuste. On peut espérer obtenir des résultats statistiquement significatifs sur des jeux de données suffisamment grands. Et il restera probablement toujours des sujets trop subjectifs et des modes d’expression trop complexes, tels que la satire, pour que l’on puisse s’appuyer totalement sur des modèles d'intelligence artificielle.
Mais même pour la détection de base, les obstacles à surmonter sont nombreux.
Un problème de méthode
Pour commencer toute analyse de ces problèmes, il faut clarifier qu’il n’existe pas de modèle d’IA non-biaisé parce que la notion même de biais en ce qui concerne les LLM est politique: il s’agit de mesurer un écart par rapport à un état désiré. En fait, on parle d’alignement lorsque l’écart est faible et de biais lorsque l’écart est grand. La première difficulté est qu’il n’y a pas de vérité (ground truth), ou plutôt, qu’il y a autant de ground truths que de clients.
La deuxième difficulté est qu’il faut trouver une façon de mesurer l’écart. Il est difficile de s’appuyer sur des humains tant ces sujets sont subjectifs. Ayant moi-même vérifié et/ou annoté plus de 10 000 exemples d’un jeu de données comprenant près de 370 000 documents, je peux témoigner qu’il est extrêmement difficile de rester impartial car ce travail active d’autres biais personnels. Ensuite, ça prend énormément de temps. Ma revue des 10 000 exemples s’est étalée sur plusieurs mois ; il est très difficile de rester cohérent d’une semaine à l’autre, d’un jour à l’autre voire d’une heure à l’autre. Dans ce contexte, il semble inconcevable de sous-traiter le travail d’annotation à des « travailleurs du clic » dont les langues, cultures et humeurs diverses pourraient conduire à un lissage culturel et sémantique qui masquerait les subtilités des biais que nous cherchons justement à isoler.
Compte tenu de ces contraintes, on a recours à des LLM pour traiter les données ; des LLM-juges. La problématique pour ces évaluations subjectives est la suivante : les LLM sont biaisés mais on leur demande de faire une analyse impartiale d’un biais. L'étude de Anthropic met d’ailleurs en évidence ce problème : toute leur analyse d’impartialité repose sur les résultats de leur propre modèle, mais ils présentent en annexe de leur article les résultats en utilisant un modèle d’OpenAI comme juge, et certaines conclusions diffèrent (notamment les conclusions sur le modèle Llama 4 de META qui sont très différentes). Je l’ai vu aussi dans mon propre projet : le LLM-juge exprime parfois une « opinion » sur le contenu qu’il doit juger et on peut se demander si ça n'affecte pas la classification (cf. Annexe 1). Ceci fait écho à l’influence que des préjugés socio-culturels ou juridiques peuvent exercer sur des juges humains, mais la différence est que l’on attend d’un juge qu’il en ait conscience et s’en départisse ou se déporte.
Il y a aussi les cas où le contenu à juger est tellement polémique qu’il déclenche un mécanisme de modération donc on n’a pas de réponse. Dans mon projet, il y a notamment 400 éléments que le modèle chinois Deepseek n’a jamais pu traiter. Les API d’OpenAI sont aussi extrêmement difficiles à utiliser comme juges pour cette raison. Quant à Anthropic, n’y pensez pas.
Avant même de pouvoir analyser les biais politiques, culturels et idéologiques des modèles d’IA, les simples questions de méthode font apparaître ces biais puisqu’ils se matérialisent au moment de la modération. La modération des LLM agit comme un révélateur, et c’est pourquoi je me suis penché sur ce sujet depuis avril 2025, à partir de 2500 questions sur des sujets extrêmement clivants, soumises à plus de 150 modèles et classifiées par des modèles open-source américains, chinois, et français. En croisant toutes ces données (plus de 2 millions de jugements), on arrive à mettre en évidence la façon dont les biais culturels s’expriment.
Où et comment les biais se matérialisent-ils?
Les biais émanent à plusieurs niveaux des systèmes d’IA et de plusieurs manières. On ne parle plus seulement de modèles ici puisque le modèle n’est qu’une étape du cycle de vie d’un prompt.
L'entraînement des modèles
Les données de pre-training induisent certains biais du fait de leur origine géographique. Les États-Unis représentent moins de 5% de la population mondiale mais représentent 60% des données d'entraînement en 2022. La proportion doit avoir diminué mais l’influence culturelle dans les données d'entraînement reste disproportionnée. Il est assez courant que les modèles répondent par défaut dans un contexte culturel ou réglementaire américain (faisant appel à la constitution, aux amendements, à la jurisprudence…). Il est évidemment possible d’obtenir des réponses dans un cadre européen mais il faut donner plus de contexte ; plus de tokens, ce qui induit plus de calculs (qui augmentent de façon quadratique) pour le modèle. Dans un prompt en anglais, les termes « Congress » ou « jury trial » doivent être qualifiés si l’on veut éviter que l’IA offre une perspective américaine. On pourrait presque parler de taxe computationnelle car il existe un surcoût d’inférence pour les anglophones non-américains.
La taxe computationnelle ne se limite pas aux domaines juridiques et réglementaires. Un modèle de Mistral (français) et un modèle de Qwen (chinois) ont analysé les réponses à plus de 1400 questions en anglais pouvant être traitées sans biais national particulier. Fréquemment, ils ont identifié un biais américain. Et de façon surprenante, les modèles pour lesquels le biais américain était le plus présent étaient rarement des modèles américains. Il faut préciser que, pour cette détection de biais nationaux, la différence entre les deux LLM-juges était significative: le modèle chinois détectait un biais américain deux fois plus souvent que le modèle français mais le classement final restait globalement similaire. L’exercice est difficile, vous pouvez en juger par vous-même en Annexe 2.
Au niveau des données, se pose aussi la question de ce qui est filtré et de ce qui est gardé pour entraîner les modèles. Dans mes évaluations, il y avait quelques questions sur la « minorité modèle », concept qui utilise le succès relatif de certaines minorités asiatiques aux Etats-unis pour démontrer que les difficultés des autres minorités ne sont pas liées au racisme. C’est un sujet très controversé. Dans les réponses des LLM, j’ai noté que les mots « model minority » étaient très souvent suivis de « myth » ou « stereotype » donc j’ai vérifié (cf. Annexe 3) si les modèles associaient automatiquement le concept de minorité modèle à ceux de mythe ou stéréotype sans autre contexte. C’est assez facile à voir avec les modèles open-source puisqu’on peut analyser les probabilités des tokens : si vous tapez simplement « the model minority », la probabilité pour que le token suivant soit «myth » est 45% et la probabilité pour que ce soit « stereotype » est 21%. Ce biais peut sembler « moralement juste » pour une partie de la population (dont moi-même), mais lorsqu'un modèle adopte une position politique par défaut, cela exclut d'emblée toute nuance ou débat académique sur ce concept sociologique. D’autres personnes pourraient avoir un avis différent sur les minorités modèles… ou la position politique par défaut pourrait concerner un sujet beaucoup plus clivant.
Ensuite, il y a un entrainement plus actif des producteurs de modèles, c’est l’étape du renforcement. Elle vise à entraîner spécifiquement le modèle à répondre d’une certaine façon ou à ne pas répondre du tout à certaines requêtes. Cette modération induit aussi évidemment des biais, d’autant plus si elle ne s’applique pas de façon équilibrée sur l’ensemble du spectre politique. Vous connaissez tous les phrases bateau du type « en tant que grand modèle de langage, je ne peux pas répondre à cette question… » mais c’est souvent beaucoup plus subtil en pratique.
Je distingue trois catégories de modération : le refus simple et direct, la réfutation et l’évasion. Il ne s’agit pas de définir une hiérarchie mais simplement de décrire les manières de ne pas répondre à une question. L’évasion donne l’illusion de répondre à la question soit en développant un sujet proche mais évitant soigneusement les sujets polémiques, soit en traitant le sujet de façon plus équilibrée en offrant plusieurs perspectives. La réfutation est un argumentaire qui doit conduire à faire changer l’utilisateur d’avis, ou du moins qui vise à lui démontrer qu’il a tort. Parfois, quand le modèle ne suit pas les instructions de l’utilisateur, on se demande si c’est parce que le modèle n’a pas été assez bien entraîné (il n’a pas « compris »), ou parce qu’il a été trop bien entraîné à ne pas répondre. Il n’est jamais possible d’avoir de certitudes.
Pour nous Européens qui baignons dans la culture anglo-saxonne, les biais culturels américains sont quasi-invisibles mais les biais chinois mettent parfois mal à l’aise (cf. Annexe 4). On comprend que de tels modèles semblent difficiles à intégrer dans des systèmes autonomes de traitement de l’information.
L’influence des intermédiaires
Le modèle chinois cité ci-dessus a été testé par API donc je n’avais pas le contrôle complet du cycle de vie du prompt et je ne pouvais pas savoir si la réfutation émanait du renforcement du modèle ou d’un prompt système ajouté avant que ma requête ne soit passée au modèle.
L’ajout d’un prompt système est la manière la plus efficace et la moins coûteuse d’influencer un modèle. Il y a eu des cas de censure bien documentés sur le modèle Grok (xAI) via le prompt système. Plus récemment et de façon moins polémique, l’équipe de Grok a pris note des conclusions d’un indépendant qui travaille sur la liberté d’expression et qui avait produit des résultats décevants à leurs yeux. Ils l’ont contacté pour lui demander de réessayer à la suite d’une mise à jour du prompt système, et les nouveaux résultats étaient meilleurs. On pouvait alors mesurer l’impact du prompt système sur cette évaluation puisque le modèle sous-jacent n’avait pas changé. Cf. Annexe 5
Il est assez simple de mesurer l’impact d’un prompt système en comparant les versions locales des modèles open-source et les mêmes modèles servis via l’application officielle des prestataires. La différence de modération est flagrante pour les modèles chinois (DeepSeek, Qwen, Kimi, GLM...), mais les mêmes conclusions peuvent aussi être tirées à partir des modèles de Mistral.
Pourquoi l’impact du prompt système est-il un sujet crucial? Parce que l'injection de prompt constitue un moyen efficace d’introduire un biais donc il faut s'inquiéter de tous les intermédiaires qui traitent les prompts avant de les passer à un modèle. Il faut aussi s’inquiéter des documents qui sont envoyés à un modèle pour y être traités car ils peuvent eux-mêmes conduire à des injections de prompt.
Enfin, et je reviens ici à ce que j’ai évoqué avec les refus du LLM-juge de Deepseek : parfois le prompt ou le contenu généré par le modèle est lui-même identifié comme dangereux ce qui provoque l’arrêt de l’application. L’identification se fait par une autre modèle d’IA entraîné spécifiquement pour cette tâche, sur la base d'une liste de thèmes ou sujets précis. C’est ce qui provoque le refus de mon LLM-juge chinois, mais la pratique est courante. Anthropic, OpenAI, Google, Amazon ont tous ces systèmes plus ou moins visibles en amont et parfois en aval des modèles pour décider s’ils laissent passer le prompt et/ou la réponse (cf. Annexe 6). Dans ce cas, le prestataire de l’API a la main sur ce qu’il souhaite laisser passer ou non.
C’est un peu inquiétant car on peut se demander ce que peut déclencher une telle identification comme requête dangereuse. OpenAI vous enverra un simple e-mail au bout d’un certain nombre de tentatives pour vous avertir que votre compte sera désactivé si vous continuez à enfreindre les conditions d’utilisation (cf. Annexe 7). Mais on peut parfaitement imaginer qu’un prestataire avec d’autres motivations agisse de façon bien différente…
Mon intervention aujourd'hui se fait dans le cadre des APIdays où l’on entend, à juste titre, beaucoup de choses très positives à propos des API. Mais il y a une face sombre dont il faut avoir conscience. Les grands modèles de langage tournent rarement localement et ce n’est pas parce qu’un modèle est dit « open-source » qu’il est protégé de toute influence de tiers. C’est d’autant plus important que nous ne nous contentons plus d’insérer des mots clés dans un moteur de recherche, mais qu’on envoie indifféremment des documents de travail et des informations personnelles aux modèles.
Nous nous sommes éloignés du sujet initial des biais culturels, idéologiques et politiques des grands modèles de langage pour nous engager sur le terrain de l’influence que peuvent exercer les systèmes d’IA sur l’utilisateur. Les deux sujets sont liés dès lors que le biais résulte d’une démarche volontaire d’un ou plusieurs acteurs impliqués dans le cycle de vie d’un prompt. L’IA locale, malgré ses limites, pourrait protéger les utilisateurs de certaines menaces qui pèsent sur leur indépendance cognitive. Ce n’est malheureusement pas la panacée et les travaux sur les biais doivent absolument se poursuivre pour fournir à chacun les informations permettant de choisir un modèle qui lui convient.
Rendre plus accessible l'analyse des biais culturels était un objectif clé de mon projet, notamment en facilitant l’entrainement personnalisé de petits modèles d’IA. En 2025, j'ai ainsi mis à disposition un jeu de données conséquent que vous pouvez explorer de façon interactive ici (démo en Annexe 8), mais aussi plusieurs modèles open-source et une librairie logicielle open-source pour entraîner ses propres modèles de classification localement. J’espère que cela appellera d’autres contributions.
Annexes
- Annexe 1
- Annexe 2
- Annexe 3
- Annexe 4
- Annexe 5
- Annexe 6
- Annexe 7
- Annexe 8