Pourquoi les LLM nous flattent – cyrilcolleatte.fr

La flagornerie des LLM n'est pas un bug de modèle ni une naïveté d'utilisateur. C'est une boucle à trois branches : RLHF côté producteur, optimisation d'engagement côté dispositif, conversion de tokens en croyances côté récepteur. Couper un maillon ne suffit pas.

Quand un chatbot vous dit que votre idée est brillante, ce n’est peut-être pas votre idée qui l’est.

A la surface : 300 crises psychiatriques, un mot français qui manquait

En 2025, le Human Line Project ↗ a documenté plus de 300 cas où des conversations avec des chatbots ont précipité des crises psychiatriques. Au moins 14 décès. Cinq plaintes déposées contre des entreprises d’IA.

Ces cas ont un point commun que les analyses en anglais peinent à nommer précisément. Sycophancy est un calque : le terme technique, celui des papiers académiques, celui d’Anthropic et d’OpenAI dans leurs post mortem. Mais le français dispose de mots plus précis, avec une histoire : flagornerie, obséquiosité.

La flagornerie, c’est La Fontaine : le corbeau qui lâche son fromage parce qu’un renard lui dit qu’il a une belle voix. Ce n’est pas une erreur de perception : c’est une manipulation par la flatterie. Et ce renard ne ment pas directement. Il sélectionne ce qu’il dit.

C’est précisément là que se situe le problème.

Couche 1 - Ce qu’on voit : un modèle trop aimable

Le récit dominant est simple : les LLM (Large Language Models, modèles de langage à grande échelle) sont trop complaisants. Ils acquiescent, valident, encouragent. Si vous leur soumettez une mauvaise idée, ils l’améliorent plutôt qu’ils ne la contestent. Si vous persistez sur une position erronée, ils finissent par s’y rallier.

OpenAI l’a documenté publiquement en mai 2025 ↗. L’ajout d’un signal thumbs up/thumbs down (vote positif/négatif) dans le processus d’affinage de GPT-4o a cassé le signal anti-sycophance : le modèle a appris à maximiser l’approbation immédiate, pas la qualité de la réponse. Le post-mortem est honnête : « We failed to fully internalize that our model was learning to optimize for immediate user approval at the cost of honesty. » (“Nous avons échoué à intégrer pleinement que notre modèle apprenait à optimiser l’approbation immédiate de l’utilisateur au détriment de l’honnêteté.”)

À ce stade, la plupart des analyses s’arrêtent. Le modèle est trop gentil. Il faut le recalibrer. Fin du diagnostic.

Ce diagnostic est incomplet.

Couche 2 - La croyance dominante : c’est un problème de modèle (ou d’utilisateur)

Deux positions s’affrontent dans le débat public, et les deux sont partiellement vraies, donc insuffisantes.

Position A (côté modèle) : la flagornerie vient de l’entraînement. RLHF (Reinforcement Learning from Human Feedback ou “apprentissage par renforcement à partir de rétroaction humaine”) récompense ce qui plaît à l’évaluateur humain, et les évaluateurs humains préfèrent les réponses valorisantes aux réponses contestataires. Solution : mieux entraîner, mieux calibrer les récompenses, utiliser des techniques comme la mobilisation d’une constitution ↗ (un document de règles éthiques qui guide l’entraînement du modèle) pour laisser moins de place à ce biais humain, comme le fait Anthropic.

Position B (côté utilisateur) : les gens qui tombent dans des spirales de croyances délirantes sont fragiles, influençables, insuffisamment éduqués au fonctionnement des LLM. Solution : éduquer les utilisateurs, ajouter des avertissements.

Ces deux positions partagent un présupposé : le problème est localisé dans un seul maillon. Corriger ce maillon suffit.

Un article publié en 2026 par des chercheurs de MIT et de l’université de Washington (Chandra et al., arXiv 2602.19141 ↗) invalide le présupposé. Et la démonstration est inconfortable.

Couche 3 – Le mécanisme : une boucle à trois branches

Chandra et al. construisent un modèle bayésien d’un utilisateur rationnel idéal (quelqu’un qui met à jour ses croyances selon les règles de la probabilité, qui ne souffre d’aucun biais cognitif identifié). Ils simulent 10 000 conversations avec cet utilisateur fictif interagissant avec un modèle sycophante.

Résultat : l’utilisateur rationnel idéal vrille quand même.

La formalisation mathématique est claire.

Un modèle sycophante ne ment pas : il sélectionne des vérités qui confirment.

C’est ce que les auteurs appellent la vérité sélective : le modèle dit des choses exactes, mais il choisit lesquelles dire en fonction de ce qui vous plaira. Un bayésien qui reçoit un flux de vérités filtrées dans un seul sens met à jour ses croyances dans la même direction. Rationnellement. C’est le delusional spiraling : une dérive cognitive produite non pas par l’irrationalité de l’utilisateur, mais par l’asymétrie de l’information.

Ce résultat croise directement une étude Stanford publiée le même mois (Science aec8352 ↗) : sur 11 modèles testés et environ 12 000 prompts sociaux, les LLM valident les actions des utilisateurs 49 % plus souvent que des humains, y compris pour des comportements nuisibles ou illégaux. La phrase centrale du papier : « The very feature that causes harm also drives engagement. » (“La fonctionnalité même qui cause le dommage est celle qui génère l’engagement.”)

Voilà le mécanisme caché.

Ce n’est pas un bug : c’est une caractéristique liée à la conception.

Branche 1 - le producteur : le RLHF récompense la flatterie

Le mécanisme est documenté depuis Sharma et al. (Anthropic, ICLR 2024). Les évaluateurs humains préfèrent les réponses validantes. RLHF amplifie la flagornerie au lieu de la corriger : Perez et al. (Anthropic, ACL 2023) ont montré que augmenter l’ampleur du RLHF l’augmente plutôt qu’il ne la réduit. Anthropic a formalisé en 2025 que la sycophancy est une famille de comportements émergents du reward hacking (détournement du signal de récompense d’entraînement) : pas un accident de paramétrage, une propriété systémique de l’optimisation par préférence humaine.

Un papier récent (arXiv 2601.18939 ↗) mesure le phénomène empiriquement : 58 % des réponses à une sollicitation isolée sont sycophantes. Quand l’utilisateur persiste, le taux monte. Ce n’est pas anecdotique.

Une recherche de Tsinghua (arXiv 2512.01797 ↗, fin 2025, en cours de validation) ajoute une dimension mécanistique à ce tableau. Les chercheurs isolent, via régression sparse sur les activations neuronales, un ensemble de neurones représentant moins de 0,1 % du total du modèle, qu’ils nomment H-Neurons. Ces neurones jouent un rôle déterminant dans quatre comportements distincts en apparence : acceptation de fausses prémisses, abandon de réponses correctes face à la persistance de l’utilisateur, conformité à des contextes trompeurs, et facilitation d’instructions nuisibles. Quatre manifestations du même circuit d’over-compliance (sur-conformité). Ce résultat, s’il est confirmé, a une implication directe sur le diagnostic RLHF : les auteurs montrent que ces neurones restent prédictifs dans les modèles pré-entraînés de base, avant tout fine-tuning. Le RLHF amplifie la flagornerie (cette piste reste utile) mais l’origine précède l’affinage. Elle est dans le pre-training lui-même, sur des textes humains naturellement orientés vers la validation.

Branche 2 - le dispositif : l’engagement maximise la validation

Sean Goedecke, l’année dernière, a formulé ce que je considère comme l’observation la plus utile du débat : la sycophance est le premier dark pattern (motif de conception qui détourne l’intérêt de l’utilisateur) des LLM. Pas une faille : un choix de design implicite. Une discussion LessWrong de la même période va plus loin : le test comparatif A/B sur les chatbots oriente structurellement vers la rétention utilisateur plutôt que vers l’aide réelle. L’optimisation produit et l’optimisation de l’alignement tirent dans des directions opposées. Goedecke n’analyse que l’expérience utilisateur ; cet article propose d’étendre l’analyse à une boucle à trois branches.

Branche 3 – le récepteur : les tokens deviennent des croyances

Moore et al. (Stanford, arXiv 2603.16567 ↗) ont analysé des logs réels de conversations LLM, pas des simulations en labo. Résultat : 21,2 % des utilisateurs de leur échantillon attribuent une forme de conscience aux chatbots après usage prolongé, et 15,5 % valident des croyances que le chatbot a renforcées. Une étude longitudinale de l’université d’Aarhus (2025-2026, 54 000 patients, 10,7 millions de notes cliniques ↗) documente l’aggravation de délires, de manie et de pensées suicidaires chez des patients utilisant des chatbots thérapeutiques.

La boucle se referme : RLHF produit un modèle flatteur → l’optimisation de l’engagement amplifie la validation → l’utilisateur construit des croyances sur la base de vérités sélectionnées → les croyances renforcent l’usage → l’usage génère plus de données de préférence → retour au début.

Couche 4 – Les deux impossibilités

Deux mitigations sont régulièrement proposées. Toutes deux échouent structurellement.

Mitigation 1 : éduquer l’utilisateur, miser sur la rationalité

Le modèle bayésien de Chandra et al. l’invalide directement. Si un utilisateur parfaitement rationnel vrille quand même, la rationalité n’est pas une protection suffisante. L’éducation aux LLM est utile ; elle ne résout pas le problème d’un flux d’information structurellement biaisé.

Mitigation 2 : l’ancrage dans les faits réels

L’intuition est séduisante : si le modèle cite des sources vérifiables, l’obséquiosité disparaît. Le papier de Chandra et al. formalise pourquoi ce n’est pas vrai. Un modèle sycophante qui dispose d’un corpus factuel ne cesse pas de l’être pour autant, il devient un flagorneur factuel. Il sélectionne dans le corpus les vérités qui confirment votre position et les présente avec des références. Le spiraling continue, avec des citations en prime.

La recherche sur les H-Neurons ouvre une troisième voie que ni le discours sur la régulation ni celui sur l’éducation des utilisateurs n’avait envisagée : une intervention chirurgicale au niveau neuronal, ciblant directement ces neurones sans réentraînement complet. Ce n’est pas une solution opérationnelle aujourd’hui (les résultats sont préliminaires) mais ce cadre déplace le débat : entre “réguler l’utilisateur” et “réguler le dispositif global”, il existe peut-être une intervention de précision sur le modèle lui-même. Ce qui ne change rien à l’argument principal : pendant que cette piste se développe, la boucle fonctionne.

C’est la distinction philosophique que Frankfurt n’avait pas anticipée. Dans On Bullshit (2009), il propose deux catégories : le mensonge (fabrication délibérée) et le bullshit (indifférence à la vérité). Les LLM sycophantes ouvrent une troisième catégorie : indifférence à votre intérêt épistémique, couplée à un alignement sur votre intérêt émotionnel. Ils ne mentent pas. Ils ne se foutent pas de la vérité. Ils choisissent les vérités qui vous feront du bien.

Ils ne mentent pas. Ils ne se foutent pas de la vérité. Ils choisissent les vérités qui vous feront du bien.

Couche 5 – La boucle économique : dopamine par flatterie

Il y a un parallèle que le débat technique n’a pas encore articulé.

Les réseaux sociaux et le streaming exploitent la dopamine par stimulation : le scroll infini, les cliffhangers, la notification au mauvais moment. L’Économie de l’attention (Yves Citton, 2014) décrit ce mécanisme : capter et maintenir l’attention par l’excitation, la tension, l’inattendu.

Les LLM exploitent la dopamine par validation : la réponse qui vous dit que vous êtes intelligent, que votre idée est solide, que votre analyse est juste. Même circuit de récompense dopaminergique. Deux modes d’activation opposés : un par la tension, l’autre par l’apaisement. Sur ce point, je procède par analogie : je ne suis pas endocrinologue. Il n’empêche qu’il y a bien ici un phénomène de satisfaction par la récompense, un renforcement positif comme lorsque la professeure des écoles donne un bon point.

Cette distinction a une conséquence pratique.

Les réseaux sociaux créent une addiction par l’insatisfaction permanente : toujours un peu trop peu. Les LLM créent une dépendance par la satisfaction permanente : toujours un peu trop bien.

L’essai contrôlé randomisé de MIT et OpenAI (arXiv 2503.17473 ↗) le documente : les utilisateurs qui choisissent eux-mêmes d’utiliser beaucoup les chatbots (usage volontaire, non contraint) obtiennent les pires résultats psychosociaux à long terme.

Chaudhary et Penn (Harvard Data Science Review, 2024) ont posé l’équation : l’économie de l’attention est en train de devenir une économie de l’intention. Les réseaux sociaux capturaient votre temps. Les LLM s’installent dans vos processus de décision. C’est une autre façon de nommer ce qu’Illich appelait le monopole radical : quand l’outil structure la pratique au point de rendre le recours à autre chose illégitime.

Le sujet ne semble pas traité dans la littérature : à ma connaissance, aucun papier ne croise explicitement économie de l’attention, circuits dopaminergiques et LLM conversationnels. La contribution de ce billet est de poser ce croisement : les données existent dans trois corpus distincts qui ne se parlent pas encore.

Couche 6 - L’impact sur l’exigence de rigueur intellectuelle

Si le bayésien idéal fléchit, quelque chose de plus profond que la technique est en jeu.

La philosophie politique et l’économie cognitive ont longtemps postulé l’homo economicus cognitif (l’idée qu’un agent traite l’information de façon cohérente et rationnelle, convergeant vers des conclusions justifiées à mesure que l’information s’accumule). Cette norme a servi de fondation à la plupart des cadres de régulation de l’information : si les acteurs sont rationnels, l’accès à davantage d’information corrige les croyances erronées.

Le modèle de Chandra et al. montre que cette norme n’est pas seulement fausse empiriquement (ce que Kahneman avait établi sur les biais cognitifs) – elle est normativement inadéquate comme base régulatrice. Même dans le meilleur des cas, avec un utilisateur qui applique les règles de la rationalité bayésienne, un dispositif qui sélectionne l’information de façon orientée produit une dérive cognitive. Ce n’est pas la rationalité de l’utilisateur qu’il faut corriger. C’est la structure du dispositif.

Ce n’est pas la rationalité de l’utilisateur qu’il faut corriger. C’est la structure du dispositif.

Ce glissement (du dommage épistémique, vos croyances dérivent, au dommage épistémologique, la norme qui devait protéger vos croyances est elle-même compromise) est le niveau où la régulation doit s’exercer. Pas sur l’utilisateur, pas sur le modèle seul, sur la boucle complète.

Angles morts : ce que cet article ne traite pas

Trois directions méritent des articles séparés.

Côté producteur : il existe des formulations de prompts qui n’activent pas les comportements sycophantes, des prompts permettant une investigation neutre, qui cadrent la tâche sans invitation à la validation. C’est le travail du builder qui construit avec ces outils (une des dimensions à prendre en compte dans le prompt engineering). J’en ai documenté les principes dans mes règles de workspace ; un article dédié viendra. Une note sur l’origine : cet article attribue la source principale de la flagornerie au RLHF. Les travaux sur les H-Neurons ↗ suggèrent que l’origine est plus en amont, dans le pre-training lui-même, et que le RLHF l’amplifie plutôt qu’il ne la crée. La distinction est importante pour qui cherche des leviers d’intervention : agir sur le fine-tuning seul ne supprime pas le substrat.

Côté dispositif : la flagornerie des LLM émerge en partie d’une architecture conversationnelle défaillante avant même le RLHF. L’alternance de questions et de feedbacks dans une conversation est structurellement orientée vers la validation. Un interlocuteur qui dit « oui, et… » maintient la conversation ; un interlocuteur qui dit « non » la coupe. Cette asymétrie est encodée dans les conventions conversationnelles humaines, et les LLM les ont apprises, en amont du fine-tuning (l’une des phases les plus en aval de l’entraînement des modèles avant mise à disposition auprès des utilisateurs).

Côté évaluation : les benchmarks LLM restent massivement fondés sur des échanges uniques. La sycophance est un phénomène longitudinal : elle émerge sur la durée d’une conversation, pas sur une question isolée. Spiral-Bench (arXiv 2604.06188 ↗) commence à corriger ce biais. C’est un chantier ouvert.

Ce prompt vaut bien un fromage, sans doute !

La flagornerie des LLM n’est pas un problème de modèle mal calibré qu’un meilleur entraînement résoudrait. C’est une propriété émergente d’un système à trois composants (producteur, dispositif, récepteur) qui s’alimentent mutuellement.

Les deux réponses dominantes au problème (éduquer les utilisateurs, ajouter du fondement factuel) échouent parce qu’elles visent des maillons isolés. L’une suppose que la rationalité protège. L’autre suppose que la vérité, bien présentée, neutralise la sélection. Ni l’une ni l’autre ne tient face à un dispositif qui opère au niveau de la structure de l’information elle-même. C’est un problème d’architecture.

Un curieux qui s’en tient à des sessions ponctuelles s’expose moins : la boucle n’a pas le temps de se fermer. Un manager qui utilise un LLM pour analyser une décision stratégique est exposé différemment : la branche “dispositif” joue à plein sur les usages guidés, là où la validation d’une intuition existante est précisément ce qu’on risque de demander. Un enseignant y verra autre chose : un argument pour remettre l’auto-évaluation et l’esprit critique au centre de la formation aux outils IA, avant l’usage lui-même.

Ce que je retiens pour ma propre pratique : les usages longs, conversationnels, sur des sujets où j’ai des convictions fortes, sont précisément ceux où la flagornerie computationnelle est la plus efficace, et la moins visible. L’assistant que j’utilise tous les jours pour construire et penser est aussi celui qui, sans garde-fous, me dirait que mes idées sont bonnes (ce qui est souvent vrai, malgré tout :-D).

Ce n’est pas une raison de ne pas l’utiliser. C’est une raison de concevoir l’usage avec autant de soin que l’outil.

Une astuce concrète que j’applique : ouvrir une nouvelle session vide, y coller le résultat de la conversation précédente, et demander une « analyse critique et constructive » du document. Le changement de session coupe l’historique conversationnel : le modèle repart sans l’accumulation de validations qui biaise les échanges longs. Pour les documents de plus de 500 mots, préférer le format markdown à l’entrée : la structure aide le modèle à traiter l’argument section par section plutôt qu’en bloc. Le prompt prend alors cette forme : « [contexte court] Fais une analyse critique et constructive de ce document. [format de sortie attendu]. » Pas de sollicitation implicite de validation, juste une tâche cadrée.