L’esprit est dans le corpus
Nous racontons l’intelligence artificielle comme une histoire d’algorithmes géniaux. C’est une erreur de perspective : depuis quinze ans, ce sont les données qui commandent — ce qu’une machine peut apprendre, ce qu’elle se trompe à croire, et le moment où elle cessera de progresser.
En 2006, une jeune chercheuse de Princeton décide de faire exactement le contraire de ce que son champ considère comme sérieux. Pendant que ses collègues raffinent des algorithmes de reconnaissance d’images sur des jeux de quelques milliers de photos, Fei-Fei Li entreprend de constituer une base de quatorze millions d’images, classées à la main en plus de vingt mille catégories, par des dizaines de milliers d’annotateurs payés à la tâche sur Internet. Le projet, baptisé ImageNet, est accueilli avec une politesse gênée : on n’avance pas la science en empilant des photos de chiens. Six ans plus tard, un réseau de neurones entraîné sur cette base pulvérise tous les records de reconnaissance visuelle — et déclenche la décennie d’intelligence artificielle que nous vivons encore. L’algorithme vainqueur, lui, n’avait rien de neuf : son principe datait de 1989. Ce qui manquait depuis vingt-trois ans, ce n’était pas une idée. C’était de la matière.
Cette anecdote n’est pas un détail d’histoire des sciences. Elle révèle un renversement que le récit courant de l’IA continue de masquer : nous croyons que l’intelligence des machines réside dans leurs programmes, alors qu’elle réside d’abord dans ce qu’on leur donne à lire. Comprendre le rôle des données dans l’apprentissage automatique, c’est comprendre pourquoi ces systèmes savent ce qu’ils savent, pourquoi ils se trompent comme ils se trompent — et pourquoi la question la plus angoissante de l’industrie, en 2026, n’est plus « quel algorithme inventer ? » mais « que reste-t-il à lire ? ».
Les idées attendaient. La matière manquait.
L’histoire de l’apprentissage automatique a quelque chose de déconcertant quand on la regarde par ses dates. Le neurone artificiel — l’idée qu’une cellule de calcul puisse ajuster ses connexions pour apprendre — est formulé par Frank Rosenblatt en 1958. L’algorithme central qui permet d’entraîner des réseaux profonds, la rétropropagation du gradient, est popularisé en 1986. Les réseaux convolutifs, cette architecture qui imite vaguement le cortex visuel et qui domine encore la vision par ordinateur, sont mis au point par Yann LeCun dès 1989 pour lire des chiffres manuscrits sur des chèques. Autrement dit : l’essentiel de la boîte à outils conceptuelle de l’IA moderne existe avant la chute du mur de Berlin.
Et pourtant, rien ne se passe — ou presque — pendant deux décennies. Les réseaux de neurones traversent les années 1990 et 2000 comme une curiosité marginale, moquée dans les conférences, désertée par les financements. Quand la bascule survient, en 2012, avec le réseau AlexNet qui remporte la compétition ImageNet avec une marge écrasante, les commentateurs parlent de percée algorithmique. C’est inexact. AlexNet est, pour l’essentiel, le réseau de LeCun de 1989, agrandi et accéléré par des processeurs graphiques. Ce qui a changé, c’est qu’il existait enfin un corpus assez vaste et assez bien étiqueté pour que cette architecture révèle ce qu’elle savait faire. L’idée avait cinquante-trois ans d’avance sur sa matière première.
Ce décalage chronologique enseigne quelque chose de profond sur la nature de ces systèmes. Un algorithme d’apprentissage n’est pas un programme au sens classique — une suite d’instructions qui contiendrait le savoir-faire. C’est une procédure d’extraction : il ne sait rien par lui-même, il sait absorber. Sa puissance est donc strictement bornée par ce qu’on lui présente. Donnez le meilleur algorithme du monde à un corpus pauvre, il apprendra peu ; donnez un algorithme médiocre à un corpus immense et propre, il vous surprendra. La communauté de la vision par ordinateur en a fait l’expérience humiliante : des années de raffinements théoriques ont été balayées par une base de données construite par des annotateurs anonymes.
Le modèle ne stocke pas le monde, il le résume
Mais que fait exactement un modèle avec ses données ? L’image courante — la machine « ingurgite » des textes puis les « recrache » — est doublement fausse, et la corriger éclaire tout le reste.
Un grand modèle de langage est, matériellement, un immense tableau de nombres : des centaines de milliards de paramètres, ces coefficients ajustables qui pondèrent les connexions du réseau. L’entraînement consiste à lui faire prédire, des milliers de milliards de fois, le mot suivant d’un texte, et à corriger légèrement chaque paramètre après chaque erreur. À la fin du processus, le corpus a disparu : il ne reste que les coefficients. Or l’arithmétique est éloquente. Le texte brut moissonné sur le web se compte en pétaoctets ; après filtrage et déduplication, le corpus d’entraînement pèse une dizaine de téraoctets ; les paramètres du modèle final, quelques centaines de gigaoctets. Le modèle est physiquement incapable de contenir ses lectures. Il en conserve autre chose : une compression statistique — les régularités, les structures, les associations récurrentes, débarrassées (idéalement) des détails singuliers.
C’est cette compression qui fait toute la différence entre apprendre et mémoriser. Une base de données restitue exactement ce qu’on y a déposé, et rien d’autre ; un modèle restitue approximativement ce qu’il a vu, mais peut produire ce qu’il n’a jamais vu, en recombinant les régularités extraites. La généralisation — répondre juste sur du neuf — est précisément le fruit de cette perte d’information. Un modèle qui mémoriserait parfaitement son corpus serait un mauvais modèle : il connaîtrait chaque arbre et ignorerait la forêt. Les praticiens appellent ce travers le surapprentissage, et le combattent comme on combat la pédanterie chez un étudiant.
Mais la compression a un corollaire vertigineux : le modèle n’apprend pas du monde, il apprend de la description du monde que contient son corpus. Si cette description est déformée — si certaines populations y sont caricaturées, certaines langues sous-représentées, certaines époques absentes — la déformation est compressée avec le reste, et restituée avec l’assurance tranquille d’une régularité statistique. Le modèle ne distingue pas un biais d’un fait : pour lui, les deux sont des motifs fréquents. C’est en ce sens précis que les données ne sont pas le carburant de l’apprentissage automatique mais sa théorie implicite : elles définissent silencieusement ce qui comptera comme vrai.
Les jeux de données ne sont pas des matières premières neutres : ce sont des interventions politiques, des prises de position sur ce qui mérite d’être vu et nommé.
D’après Kate Crawford, Contre-atlas de l’intelligence artificielle
Quand la donnée devient une grandeur physique
Jusqu’en 2020 environ, le rôle des données restait une intuition d’ingénieur : plus, c’est mieux. Puis une série de travaux, menés notamment chez OpenAI et DeepMind, a transformé l’intuition en quelque chose qui ressemble à une loi de la nature. En entraînant des familles entières de modèles de tailles croissantes sur des corpus de volumes croissants, les chercheurs ont constaté que l’erreur de prédiction décroît selon une loi de puissance étonnamment régulière : tracée sur des axes logarithmiques, la performance suit une droite. Doublez les données, et le gain — quoique décroissant — est prévisible à la décimale près. On nomme ces régularités les lois d’échelle, et elles ont changé le statut épistémologique de la donnée : d’ingrédient artisanal, elle est devenue une grandeur quantifiable, planifiable, budgétable, au même titre que la puissance de calcul.
Le raffinement décisif arrive en 2022 avec l’étude dite « Chinchilla » de DeepMind. Son résultat tient en une phrase : l’industrie entraînait des modèles trop gros sur trop peu de texte. À budget de calcul fixé, il existe un équilibre optimal entre la taille du modèle et le volume du corpus — environ vingt mots de texte pour chaque paramètre du réseau. Un modèle géant nourri d’un corpus trop maigre gaspille sa capacité : sa courbe d’apprentissage s’aplatit, et aucun supplément de calcul n’y changera rien. La conclusion a réorienté toute l’industrie : la voie du progrès ne passait pas par des modèles toujours plus grands, mais par des corpus toujours plus vastes.
Il faut mesurer ce que cette découverte a d’étrange. Elle signifie que la donnée se comporte comme une ressource au sens presque thermodynamique : il y a une quantité d’apprentissage extractible d’un corpus donné, et on ne peut pas tricher. Elle signifie aussi — et c’est le point que les laboratoires ont compris avant le grand public — que la course à l’intelligence artificielle est devenue, en sous-main, une course à l’accaparement de texte, d’images et de code. Les accords de licence signés à prix d’or avec les agences de presse, les forums, les banques d’images ; les procès intentés par les éditeurs ; l’opacité croissante des laboratoires sur la composition de leurs corpus : tout cela découle d’une droite sur un graphique log-log.
La qualité, ou la part humaine que l’on préfère ne pas voir
Les lois d’échelle ont toutefois un angle mort : elles traitent les données comme un fluide homogène, mesuré en milliards de mots. Or tout praticien sait qu’un téraoctet de forums complotistes et un téraoctet d’articles scientifiques ne produisent pas le même modèle. Le vieil adage de l’informatique — garbage in, garbage out, des déchets à l’entrée, des déchets à la sortie — n’a jamais été aussi vrai qu’à l’ère des modèles géants, précisément parce que plus personne ne peut relire ce qui entre.
D’où un déplacement remarquable du centre de gravité du métier. Vers 2021, Andrew Ng, l’un des fondateurs du domaine, popularise l’expression d’IA centrée sur les données : à architecture égale, affirme-t-il, on gagne désormais davantage en nettoyant, filtrant et équilibrant le corpus qu’en retouchant le modèle. Les laboratoires de pointe consacrent aujourd’hui une part considérable de leur ingénierie non pas aux réseaux de neurones, mais aux pipelines de curation : détection des doublons, filtrage de la toxicité, équilibrage des langues, élimination des textes générés par d’autres machines, pondération fine des sources — combien de code, combien de mathématiques, combien de littérature ? Ces recettes sont devenues des secrets industriels mieux gardés que les architectures elles-mêmes, qui, ironie de l’histoire, sont largement publiques.
La qualité des données n’est pas qu’affaire de filtres automatiques. Derrière chaque grand modèle, des dizaines de milliers d’annotateurs — au Kenya, aux Philippines, au Venezuela, en Inde — étiquettent des images, classent des réponses, signalent des contenus toxiques, souvent pour quelques dollars de l’heure. L’apprentissage par renforcement à partir de préférences humaines, qui a transformé les modèles bruts en assistants utilisables, repose entièrement sur ce travail de jugement à la chaîne.
L’intelligence « artificielle » incorpore ainsi une quantité massive de travail humain — non pas en amont, dans les textes qu’elle compresse, mais dans la boucle même de son éducation. La donnée n’est jamais brute : elle est toujours déjà travaillée.
Cette part humaine de la donnée explique aussi les pathologies les plus tenaces des modèles. Les biais de représentation ne sont pas des accidents de calcul : ce sont des propriétés héritées, fidèlement compressées, des choix de collecte et d’annotation. Un corpus médical composé d’essais cliniques menés majoritairement sur des hommes produira un modèle qui raisonne moins bien sur les pathologies féminines ; un corpus d’images où les cuisines sont photographiées avec des femmes liera statistiquement les deux, et le restituera. Corriger ces défauts après coup, par des garde-fous, revient à repeindre une charpente voilée : la torsion vient du bois.
Que se passe-t-il quand on a tout lu ?
Si la donnée est une ressource, elle peut s’épuiser. Cette phrase, qui aurait semblé absurde en 2015 — le web ne croît-il pas sans fin ? —, est devenue l’horizon stratégique des laboratoires. Les chercheurs du collectif Epoch AI ont chiffré le problème : le stock de texte humain public de qualité — celui qui apprend réellement quelque chose à un modèle — se compte en dizaines de milliers de milliards de mots, et les corpus d’entraînement des modèles de pointe en consomment déjà une fraction substantielle. Leurs projections situent l’épuisement du texte public de haute qualité quelque part entre 2026 et 2032. Le web croît, certes, mais moins vite que l’appétit des modèles — et une part croissante de cette croissance est désormais produite… par les modèles eux-mêmes.
C’est là que la question des données cesse d’être logistique pour devenir presque écologique. La réponse évidente à la pénurie — faire générer par les modèles leurs propres données d’entraînement, dites synthétiques — fonctionne dans des domaines vérifiables : on peut produire des millions de problèmes de mathématiques ou de programmes informatiques dont la justesse se teste mécaniquement, et les modèles récents y doivent une bonne part de leurs progrès. Mais appliquée naïvement au langage général, la recette se retourne. Une équipe d’Oxford et de Cambridge l’a montré dans une étude publiée par Nature en 2024 : des modèles entraînés de façon répétée sur les sorties de leurs prédécesseurs dégénèrent en quelques générations. Le mécanisme est statistiquement limpide : chaque modèle échantillonne préférentiellement le centre de sa distribution — le probable, le convenu — et néglige les queues, c’est-à-dire le rare, l’étrange, le minoritaire. Génération après génération, la distribution se contracte ; la langue produite devient plus fluide et plus pauvre, jusqu’à l’effondrement. Les auteurs parlent de model collapse ; on pourrait dire : consanguinité statistique.
Le danger n’est pas seulement expérimental. Le web réel est en train de devenir ce milieu contaminé : une part croissante des textes, images et avis publiés en ligne est d’origine machinique, sans étiquette qui la distingue. Les corpus de demain seront donc mécaniquement plus autophages que ceux d’hier — et les données authentiquement humaines, datées d’avant 2023, acquièrent le statut paradoxal d’un acier d’avant les essais nucléaires : une matière non contaminée, finie, dont la valeur monte à mesure que le milieu se trouble. Plusieurs laboratoires l’ont compris, qui négocient l’accès à des archives fermées — bibliothèques, fonds éditoriaux, conversations privées — comme on sécurise un gisement.
La donnée n’est pas le pétrole de l’IA, elle en est le sol
Reste à corriger la métaphore qui gouverne tout le débat public. « Les données sont le nouveau pétrole » : la formule, lancée par un mathématicien britannique en 2006, a fait fortune parce qu’elle dit une chose vraie — la donnée est devenue l’actif stratégique central — en suggérant trois choses fausses. Le pétrole est consommé par son usage ; la donnée ne s’use pas quand on l’exploite, elle se dégrade quand on la dilue. Le pétrole est indifférencié — un baril en vaut un autre ; la donnée tire toute sa valeur de sa singularité, de sa diversité, de ses queues de distribution. Le pétrole, enfin, est un legs géologique sans auteur ; la donnée est intégralement produite par des personnes, avec leurs droits, leurs intentions, leurs angles morts.
Une meilleure image serait agricole : la donnée est un sol. Elle se cultive, s’appauvrit par monoculture, se contamine par ce qu’on y déverse, et sa fertilité — la diversité des écritures, des points de vue, des erreurs humaines fécondes — conditionne tout ce qui y poussera. Un modèle de langage est, au sens fort, le produit de son terroir : il ne peut être meilleur que la culture compressée qui le constitue. C’est pourquoi la question des données déborde si vite la technique pour devenir politique. Décider quels textes entrent dans les corpus, qui est rémunéré pour les avoir écrits, quelles langues et quelles mémoires y figurent, c’est décider quelle version du monde sera tenue pour probable par les machines qui, déjà, rédigent, résument, recommandent et répondent à notre place.
Le renversement est complet. On croyait l’apprentissage automatique gouverné par ses algorithmes ; on découvre qu’il est gouverné par ses lectures. On croyait la donnée infinie ; on découvre qu’elle est rare, périssable, contaminable. On croyait construire des intelligences ; on a construit des miroirs — d’une fidélité statistique implacable — de ce que l’humanité a pris la peine d’écrire. Si ces miroirs nous déçoivent dans les années qui viennent, il faudra se demander, avant d’accuser les ingénieurs, ce que nous leur avons donné à refléter. Et si nous voulons qu’ils s’améliorent, la voie est moins mystérieuse qu’il n’y paraît : il faudra continuer d’écrire — humainement, abondamment, étrangement — des choses qui méritent d’être apprises.