Sciences cognitives

Sur le mécanisme paradoxal qui transforme la récompense en poison, et sur l'envers caché de toute économie du désir.



L'épisode est célèbre. Tom Sawyer, condamné à blanchir une palissade un samedi matin, transforme la corvée en privilège : il feint l'extase, mime l'application studieuse, refuse l'aide qu'on lui offre. Très vite, ses camarades veulent peindre aussi — et finissent par lui payer le droit de le faire. Le tour est parfait, mais il dissimule une intuition plus profonde que la simple ruse enfantine. Mark Twain, sans le savoir, formule une thèse que la psychologie expérimentale mettra un siècle à corroborer : la même action peut être travail ou jeu selon la raison qu'on se donne de la faire. Et si l'on peut transformer le travail en jeu, alors on peut aussi — par inadvertance, par bonnes intentions, par habitude managériale — transformer le jeu en travail.

Le Travail, c'est ce qu'on est obligé de faire ; le Jeu, c'est ce qu'on n'est pas obligé de faire.

— Mark Twain, Les Aventures de Tom Sawyer, 1876

C'est précisément ce que font les récompenses. Pas toujours. Pas mécaniquement. Mais assez souvent pour qu'on ait dû, depuis cinquante ans, reconstruire l'idée même de motivation.

I — L'illusion arithmétique

La carotte, le bâton, et la somme qui n'en est pas une

L'idée dominante, héritée à la fois du behaviorisme et de l'analyse économique standard, est d'une simplicité désarmante. Les comportements humains s'expliquent par leurs conséquences : un acte qui produit du plaisir ou de l'utilité tend à se répéter, un acte qui produit de la peine ou du coût tend à s'estomper. B. F. Skinner avait étendu cette grammaire des pigeons à toute la psychologie humaine ; Gary Becker l'a portée à l'économie du mariage, du crime, de la formation. Dans cette vue, la motivation se mesure et s'additionne. On a plus envie de faire quelque chose si on en tire plus. La carotte fonctionne, le bâton aussi, et leur somme algébrique détermine le comportement.

Le grand attrait de ce modèle est qu'il marche — souvent. On obtient effectivement plus de production en payant à la pièce qu'au temps. On obtient effectivement moins d'infractions en augmentant les amendes. On obtient effectivement plus de devoirs rendus en notant. La logique incitative est devenue, par incrustation progressive, la grammaire par défaut de l'école, de l'entreprise, du droit pénal et même de la santé publique.

Mais il existe un domaine où elle échoue, et l'échec n'est pas anecdotique : il défigure tout le paysage. Quand on récompense ce que les gens font déjà pour eux-mêmes, on n'augmente pas leur engagement. On le détruit.

A — MODÈLE ADDITIF La motivation est une quantité ; on l'augmente en empilant les raisons. intrinsèque extrinsèque prime, salaire, note, sanction intérêt, plaisir, curiosité, sens = motivation totale B — MODÈLE TRANSFORMATIF L'extrinsèque ne s'ajoute pas à l'intrinsèque : il en prend la place. intrinsèque AVANT récompense contrôlante PENDANT retrait APRÈS
Figure 1 Deux théories incompatibles. Dans le modèle additif (A), les motivations s'empilent sans s'altérer. Dans le modèle transformatif (B), l'introduction d'une récompense contrôlante ronge la motivation intrinsèque préexistante ; son retrait laisse alors un résidu plus faible que l'état initial.
II — Le puzzle de Deci

Comment un dollar et trois Soma ont fissuré un demi-siècle de psychologie

L'histoire commence à l'université de Rochester, à l'automne 1971. Edward Deci, jeune doctorant en psychologie sociale, conçoit une expérience d'une élégance dépouillée. Il convoque des étudiants en trois sessions successives et leur propose de manipuler les Soma — des cubes géométriques que l'on peut assembler en figures variées. Les puzzles sont intrinsèquement intéressants : la plupart des sujets y prennent plaisir spontanément.

Le dispositif possède un détail décisif. À chaque session, après la phase de travail proprement dite, Deci s'absente quelques minutes en disant qu'il doit aller chercher quelque chose. Sur la table, à côté des cubes, il a posé des magazines. Pendant son absence, les sujets sont libres. Le temps qu'ils passent à manipuler les puzzles plutôt qu'à feuilleter les magazines est la vraie mesure de l'expérience : la motivation intrinsèque, observée à l'insu du sujet, par une vitre sans tain.

À la session 1, les deux groupes — assignés aléatoirement — jouent à peu près autant pendant la pause. À la session 2, Deci annonce à un groupe qu'il sera désormais payé — un dollar par puzzle résolu — tandis que l'autre continue gratuitement. Pendant la phase officielle, les deux groupes travaillent. Pendant la pause libre, l'écart reste faible.

Mais à la session 3, sans que rien ne soit annoncé, l'argent disparaît. Les deux groupes travaillent à nouveau, gratuitement. Et là, pendant la pause critique, l'effet apparaît : le groupe qui avait été payé joue significativement moins avec les Soma que celui qui ne l'avait jamais été. Le contact avec l'argent a laissé une trace. Quelque chose, en eux, a appris que ces puzzles ne valaient pas la peine sans rémunération.

PROTOCOLE DECI, 1971 temps libre passé à jouer (pause non observée) SESSION 1 baseline — aucun groupe payé SESSION 2 groupe expérimental payé 1 $ / puzzle SESSION 3 retour à la gratuité pour tous expé. contrôle expé. ($) contrôle expé. contrôle effet de sur-justification ↓ chez les ex-payés
Figure 2 Le résultat de Deci tient dans la troisième colonne. Pendant la pause libre de la session 3, alors que personne n'est plus rémunéré, le groupe précédemment payé joue nettement moins que le groupe témoin. La récompense a éteint un appétit qui préexistait à son arrivée.

Deux ans plus tard, à Stanford, Mark Lepper, David Greene et Richard Nisbett répliquent l'effet chez des enfants de maternelle avec un dispositif encore plus net. Les enfants aiment dessiner aux feutres — c'est leur activité spontanée, vérifiée par observation libre. Trois groupes sont constitués. Au premier, on annonce qu'ils recevront un prix du bon joueur, un certificat orné d'un sceau doré, pour avoir dessiné. Au deuxième, on ne dit rien, mais on leur remet le même certificat à la fin. Au troisième, ni promesse ni certificat.

Deux semaines plus tard, on remet les feutres à disposition, sans rien promettre. Les enfants du premier groupe — ceux qui avaient attendu la récompense — passent significativement moins de temps à dessiner que les autres. Quelque chose s'est éteint. Les enfants du deuxième groupe, eux, ne sont pas affectés : la récompense inattendue ne contamine pas.

Cinquante ans, plusieurs méta-analyses et quelques controverses méthodologiques plus tard, le phénomène a un nom : l'effet de sur-justification. Et il demeure l'un des résultats les plus robustes de la psychologie sociale.

III — Trois besoins, une seule racine

Pourquoi le payeur détruit ce qu'il croyait encourager

Reste à expliquer le mécanisme. Deci, allié à un autre psychologue de Rochester, Richard Ryan, va passer les décennies suivantes à construire une théorie capable de loger ce résultat dans une architecture conceptuelle plus large. Ce sera la théorie de l'autodéterminationSelf-Determination Theory, ou SDT — aujourd'hui l'une des grilles de lecture les plus influentes en psychologie de la motivation.

L'idée centrale est la suivante. La motivation humaine n'est pas une grandeur unique qu'on pourrait pomper avec des incitations. Elle est l'expression d'un fonctionnement psychologique sain, dont on peut identifier les conditions. Trois besoins fondamentaux, selon Deci et Ryan, gouvernent ce fonctionnement.

D'abord l'autonomie : le sentiment d'être l'auteur de ses propres actes, de choisir plutôt que de subir. Ce besoin n'est pas un caprice culturel occidental — il a été retrouvé, sous des modulations variées, dans des sociétés très diverses, des kibboutz israéliens aux campagnes coréennes. Ensuite la compétence : le sentiment d'être à la hauteur, de progresser, de maîtriser une difficulté juste au-dessus de soi. Enfin l'affiliation — la traduction française commode du relatedness de l'anglais — c'est-à-dire le sentiment d'appartenir à un groupe, de compter pour quelqu'un, d'être relié à d'autres.

THÉORIE DE L'AUTODÉTERMINATION — DECI & RYAN motivation intrinsèque Autonomie « je choisis » Compétence « je progresse » Affiliation « j'appartiens » Les trois besoins se nourrissent mutuellement ; là où ils se rejoignent, la motivation intrinsèque émerge spontanément.
Figure 3 L'architecture des besoins psychologiques fondamentaux selon Deci et Ryan. Les trois cercles décrivent des conditions nécessaires, non des recettes ; aucune ne se substitue aux autres.

Quand ces trois besoins sont satisfaits, la motivation intrinsèque fleurit comme un produit naturel : on agit parce qu'on en a envie. Quand l'un d'eux est entravé, on bascule dans des formes plus appauvries de régulation, ou dans l'apathie pure.

Ce que les récompenses contrôlantes font, c'est principalement d'attaquer le premier de ces besoins. Quand je suis payé pour dessiner, je ne dessine plus parce que je l'ai choisi : je dessine parce qu'on me paie. L'autorité du geste se déplace de l'intérieur vers l'extérieur. Le lieu de causalité perçu — selon l'expression de Fritz Heider, reprise par Deci — glisse au-dehors. Et avec lui, tout le rapport intime à l'activité change de nature.

IV — Le continuum, pas la dichotomie

Six manières d'agir, du contraint au désirant

On serait tenté, devant ces résultats, de tirer une morale binaire : motivation intrinsèque, bonne ; motivation extrinsèque, mauvaise. Ryan et Deci, justement, refusent cette dichotomie. Leur élaboration la plus subtile est la théorie de l'intégration organismique : entre l'amotivation pure et la motivation intrinsèque pleine, il existe un continuum de qualités d'engagement.

À l'extrême de l'extériorité, la régulation externe : je fais parce qu'on me l'impose, parce qu'on me paie, parce que je crains la sanction. C'est la motivation behavioriste pure. Elle marche tant que la contingence est maintenue, et s'effondre sitôt qu'elle disparaît. C'est précisément la modalité que produit la récompense contrôlante.

Un cran plus intériorisée, la régulation introjectée : j'ai avalé la consigne, je n'ai plus besoin du gendarme extérieur, mais ce sont la culpabilité, la honte, la fierté blessée qui me poussent. Je dois travailler parce que sinon je ne serais pas quelqu'un de bien. La pression a été internalisée, mais elle reste une pression.

Plus loin encore, la régulation identifiée : je vois la valeur de ce que je fais, j'y consens, je me reconnais dans le but visé. L'étudiant en médecine peu enthousiasmé par la biochimie mais lucide sur sa nécessité fonctionne sur ce registre. Au seuil de la motivation intrinsèque, la régulation intégrée : l'activité, même née d'un dehors, est devenue cohérente avec mes valeurs et mon identité. Je ne fais pas seulement parce que c'est utile : c'est devenu moi.

Et enfin, à l'autre bout, la motivation intrinsèque proprement dite : je fais pour faire, pour le plaisir, l'intérêt, la satisfaction inhérente à l'acte lui-même.

CONTINUUM DE L'AUTODÉTERMINATION amotivation externe introjectée identifiée intégrée intrinsèque absence de raison prime, peur honte, fierté valeur reconnue cohérence de soi plaisir de l'acte EXTERNE INTERNE lieu de causalité perçu L'intériorisation se joue moins entre extrinsèque et intrinsèque qu'entre contraint et consenti.
Figure 4 Le continuum d'auto-régulation (Ryan & Deci, théorie de l'intégration organismique). On ne passe pas du dehors au dedans par un saut : il existe des paliers d'intériorisation que l'éducation, le management ou la pratique peuvent franchir.

L'enjeu, on le voit, n'est donc pas de purger toute motivation extrinsèque. La plupart de nos activités adultes ne seraient pas tenables sans une part d'externalité. L'enjeu est de favoriser l'intériorisation : faire glisser progressivement, par le sens donné, par l'autonomie laissée, par les relations établies, les régulations externes vers le pôle intégré. Ce déplacement-là est, par construction, l'inverse de la pure logique incitative.

V — Le mécanisme : comment la carotte ronge

L'envers contrôlant et l'envers informatif

La théorie cognitive de l'évaluation, autre sous-théorie de la SDT, propose un mécanisme précis. Toute récompense, soutiennent Deci et Ryan, porte deux dimensions inséparables. Une dimension informationnelle : elle dit quelque chose à l'individu sur la qualité de sa performance, sur sa progression, sur sa compétence reconnue. Et une dimension contrôlante : elle exerce une pression à se comporter d'une certaine manière, elle conditionne, elle surveille.

Quand la dimension contrôlante prédomine — récompense conditionnelle, surveillance, échéance imposée, évaluation comparée — le besoin d'autonomie est attaqué, et l'effet de sur-justification se déclenche. Quand la dimension informationnelle prédomine — feedback sincère, reconnaissance d'une compétence acquise, encouragement non conditionnel — le besoin de compétence est nourri, et la motivation intrinsèque peut au contraire se renforcer.

D'où cette finesse contre-intuitive : tous les renforçateurs ne se valent pas. Les récompenses inattendues ne déclenchent pas l'effet — on ne peut pas attribuer son comportement à une cause qu'on ignorait. Les récompenses verbales — compliments sincères, reconnaissance d'un effort — penchent vers l'informationnel. Les récompenses pour des tâches intrinsèquement ennuyeuses posent moins de problème, puisqu'il n'y avait pas de motivation intrinsèque à dégrader. Les récompenses qui signalent une compétence acquise — médaille décernée après un examen difficile, prix d'excellence — peuvent même renforcer.

Récompense informationnelle
Récompense contrôlante
Inattendue, surprise après coup
Annoncée, contractuelle
Verbale, qualitative, contextuelle
Tangible, quantifiée, comparée
Signale une compétence reconnue
Conditionne un comportement attendu
Non liée à la performance future
Retirable si la performance baisse
Nourrit le besoin de compétence
Attaque le besoin d'autonomie

L'archétype de la récompense toxique, à l'inverse, est la promesse contractuelle, attendue, comparée, retirable. Fais ceci pour avoir cela. Or c'est précisément la forme que privilégient l'école, l'entreprise et désormais l'application qui pingue.

VI — Conséquences : l'école, le bureau, le jeu

Quand un demi-siècle de management se trompe

Les implications sont nombreuses, parfois inconfortables.

À l'école d'abord, le système de notes — particulièrement quand il devient l'horizon premier de l'élève — produit exactement la structure des récompenses contrôlantes. Une littérature substantielle, qu'Alfie Kohn a synthétisée sans ménagement dans Punished by Rewards, suggère que l'élève fortement noté apprend à apprendre pour la note, non pour le savoir, et que cette habitude survit longtemps après la dernière copie. Les pédagogies qui mettent en avant l'autonomie de l'élève, la maîtrise progressive et la coopération obtiennent souvent, à plus long terme, des engagements plus profonds. Le résultat n'est pas que la note serait à proscrire — elle reste un signal social trop utile pour disparaître — mais qu'elle devrait être tenue à sa juste place, comme retour informationnel, et non comme moteur unique.

Au bureau, l'évidence du pay-for-performance est plus fragile qu'il n'y paraît. Pour les tâches algorithmiques, répétitives, bien spécifiées, les primes au rendement marchent — et les méta-analyses le confirment. Pour les tâches créatives, complexes, ouvertes — la grande majorité du travail intellectuel contemporain — les mêmes méta-analyses montrent une efficacité au mieux nulle, parfois franchement négative. Daniel Pink, dans Drive, résume cette littérature en trois mots devenus slogan : autonomie, maîtrise, sens. Les organisations qui réussissent à dégager du temps non assigné, à laisser choisir les moyens, à donner du contexte plutôt que des consignes, surpassent souvent celles qui empilent les indicateurs.

Enfin la gamification — l'idée séduisante d'ajouter des points, des badges, des niveaux à toute activité, du sport au travail intellectuel — apparaît, à la lumière de cette littérature, comme une pratique souvent destructrice. Elle transforme en récompense extrinsèque ce qui, sans elle, aurait pu rester intrinsèque. Elle marche un temps — c'est l'attrait de la nouveauté, le frisson du score qui monte. Puis quelque chose s'éteint, et l'on se retrouve à courir parce qu'il faut boucler la série, à lire parce qu'il faut tenir son streak, à apprendre parce qu'il faut gagner des XP. La motivation initiale, si elle existait, a fui par la porte qu'on lui avait creusée.

Revenons à Tom Sawyer. Son génie consiste à ne pas dire qu'il doit peindre. Il fait croire qu'il veut peindre, qu'il y prend goût, qu'on le prive en l'aidant. Il déplace, l'air de rien, le lieu de causalité perçu chez ses spectateurs. C'est exactement le geste inverse de celui qu'opèrent, sans le savoir, le manager qui rémunère un passionné, le parent qui paie l'enfant pour lire, l'enseignant qui distribue des étoiles à des écoliers déjà curieux. Le geste inverse, et donc tout aussi efficace — mais en démolition.

La leçon n'est pas qu'il faudrait se passer des récompenses. C'est, plus modestement, qu'elles ne sont jamais neutres. La motivation n'est pas un carburant qu'on ajouterait à un réservoir : c'est une écologie fragile, faite d'autonomie, de compétence et d'appartenance, où chaque intrusion mécanique laisse une trace. L'art subtil de motiver — celui des grands enseignants, des bons chefs, des parents lucides — consiste peut-être moins à inventer de nouvelles raisons d'agir qu'à ne pas remplacer celles qui fonctionnaient déjà.