Les LLM en 10 minutes : ce qu'il faut comprendre avant de les utiliser

Trois mécanismes pour comprendre comment fonctionne un LLM – prédiction, mémoire, limites – et éviter les erreurs d'usage les plus communes.

Chaque semaine, des personnes commencent à utiliser ChatGPT ou Claude sans aucun modèle mental de ce qu’elles manipulent. Elles s’arrêtent après quelques essais décevants, ou persévèrent avec des usages erratiques qui ne leur servent à rien. Ce n’est pas une question de mauvais prompts. C’est une question de cadre conceptuel.

Mécanisme 1 : le modèle prédit, il ne raisonne pas

La représentation la plus répandue du LLM (large modèle de langage) est celle d’un moteur de recherche amélioré, ou d’un expert interrogeable. Ni l’une ni l’autre n’est juste.

Un LLM produit des réponses en prédisant, mot par mot, quel token (unité lexicale – souvent un mot, parfois une syllabe) a le plus de probabilité de suivre les précédents, compte tenu de tout ce qu’il a lu pendant son entraînement. C’est une mécanique statistique assez complexe, mais pas une mécanique de compréhension. C’est pour cela qu’on dit parfois que les LLM sont des “perroquets stochastiques”.

Ce point a une conséquence directe : le modèle peut « avoir raison » sur un sujet sans le comprendre, et « se tromper » avec une confiance absolue sur un autre. Il n’y a pas de signal interne qui lui indique quand il est en terrain solide et quand il navigue à vue. La réponse sort avec le même ton assuré que la question soit triviale ou complexe.

« La réponse sort avec le même ton assuré que la question soit triviale ou complexe. »

Sur les sujets bien couverts dans les données d’entraînement – rédiger un e-mail, reformuler un texte, expliquer un concept établi, identifier la capitale d’un pays, produire du code dans un langage de programmation courant – la prédiction statistique est remarquablement efficace. Sur les sujets rares, récents ou très spécialisés, le modèle continue de prédire. Il produit quelque chose de plausible, pas nécessairement quelque chose de vrai.

La prédiction statistique est la fondation – pas un défaut de jeunesse. Les versions récentes ajoutent des couches au-dessus : raisonnement étendu (mode où le modèle réfléchit avant de répondre), accès au web, exécution de code. Ces ajouts compensent certaines limites, ils ne remplacent pas la mécanique de base. Comprendre cette fondation reste utile précisément parce que ces compensations ne s’activent pas toujours, et pas sur tous les sujets.

L’argument sceptique qui vient naturellement ici : si le modèle prédit sans comprendre, pourquoi lui faire confiance sur quoi que ce soit d’important ? Parce que la prédiction statistique sur des corpus massifs est remarquablement précise sur les tâches bien couvertes. Le problème n’est pas la fiabilité de l’outil : c’est l’inadéquation entre ce qu’on en attend (un oracle) et ce qu’il est (un prédicteur).

Mécanisme 2 : le modèle ne voit que ce que vous lui donnez

Un LLM n’a pas de mémoire entre les conversations (il est stateless, sans mémoire entre sessions). Chaque fois que vous ouvrez une nouvelle session, vous repartez de zéro. Le modèle ne se souvient pas de votre secteur, de vos contraintes, de ce que vous avez discuté la semaine dernière.

La fenêtre de contexte (le volume d’information que le modèle peut traiter dans une seule conversation) est tout ce à quoi il a accès. Ni plus, ni moins. Ce que vous lui donnez dans l’échange en cours – vos questions, vos documents collés, vos précisions – constitue l’intégralité de son univers de travail pour cette session.

La conséquence pratique est contre-intuitive : les résultats décevants tiennent rarement à un « mauvais modèle ». Ils tiennent à des inputs insuffisants. Un modèle qui reçoit un contexte riche, des contraintes précises et un exemple de ce qu’on attend produit des résultats nettement meilleurs que le même modèle interrogé vaguement. La qualité des outputs est, dans la majorité des cas, proportionnelle à la qualité des inputs.

« La qualité des outputs est, dans la majorité des cas, proportionnelle à la qualité des inputs. »

La frustration la plus commune vient de personnes qui ont « testé l’IA » avec des questions génériques, ont trouvé les réponses décevantes, et en ont conclu que l’outil ne convenait pas à leur besoin. Dans la majorité des cas, un prompt structuré avec contexte, objectif et format attendu transforme radicalement la qualité de la sortie.

Cette mécanique a aussi une implication pour les outils qui intègrent un LLM (assistants dans les logiciels, copilotes métier) : la pertinence de l’outil dépend de la façon dont le contexte métier lui est fourni en amont. Un LLM sans contexte pertinent n’est pas un LLM limité – c’est un LLM mal alimenté.

Mécanisme 3 : le modèle ne sait pas ce qu’il ne sait pas

C’est le mécanisme le plus difficile à intégrer, parce qu’il va à l’encontre de notre façon naturelle de faire confiance à un interlocuteur.

Quand un humain ne sait pas, il dit « je ne sais pas ». Quand un LLM ne sait pas, il répond quand même – avec la même fluidité et le même ton que lorsqu’il est sur un terrain solide. Le phénomène porte un nom dans la littérature : on parle d’hallucination. Le terme est légèrement trompeur : le modèle ne « fabule » pas au sens où il inventerait délibérément. Il prédit, et la prédiction est parfois fausse.

« Il prédit, et la prédiction est parfois fausse. »

Ce mécanisme est particulièrement actif sur des sujets précis : chiffres récents, noms de personnes réelles, dates d’événements spécifiques, références bibliographiques, état du droit ou de la réglementation. Le modèle a vu suffisamment de textes sur ces sujets pour produire quelque chose de plausible – mais la plausibilité n’est pas la précision.

La réponse à ce mécanisme n’est pas de se méfier de tout. C’est de calibrer la validation selon les enjeux. Pour reformuler un e-mail ou générer une première structure de document, la vérification est légère. Pour une décision qui engage des ressources, des personnes ou des obligations légales, la validation humaine sur les faits cités reste non négociable.

Il existe aussi un pendant moins discuté de ce mécanisme : les progrès récents. Les modèles disponibles aujourd’hui – ChatGPT, Claude, Gemini et leurs équivalents – ont chacun une date de coupure dans leurs données d’entraînement. Ils ne sont pas au courant de ce qui s’est passé depuis. Certains systèmes compensent cela avec un accès au web en temps réel, mais même dans ce cas, la synthèse reste probabiliste.

Ce qu’il faut retenir

Avant de chercher « comment mieux prompter », comprendre pourquoi le modèle se comporte comme il le fait change radicalement la façon d’utiliser l’outil. Ensuite, et c’est aussi pour cela que ces modèles ont tant de succès, il existe des gardes-fous qui permettent de limiter les dérives des modèles.

Trois réflexes à développer :

Contexte d’abord. Avant d’envoyer une requête, se demander : est-ce que le modèle a suffisamment d’informations pour répondre utilement ? Secteur, contraintes, format attendu… – tout ce que vous donnez dans la conversation est du contexte.
Calibrer la vérification selon les enjeux. Pour tout contenu factuel qui a des conséquences réelles, croiser avec d’autres sources. Pas par principe, mais de façon graduée et adaptée.
Tester avant de conclure. La plupart des déceptions avec les LLM viennent de premières expériences avec des requêtes trop vagues. Une reformulation structurée change souvent radicalement le résultat.

Ces trois mécanismes ne sont pas les seuls à connaître – mais ce sont ceux sans lesquels tout le reste reste opaque. On peut aller bien plus loin : une grosse partie des techniques d’optimisation des prompts reposent sur du context engineering, de l’optimisation ou l’organisation de la mémoire, ou de limiter les hallucinations en forçant la citation des sources. Si vous souhaitez aller plus loin : l’article sur la flagornerie des modèles approfondit le troisième mécanisme.