L’un des moyens d’apprendre est de tester différentes choses, faire des erreurs, et ajuster son comportement en fonction de ce qui fonctionne. C’est ce qu’on appelle l’apprentissage par essais et erreurs. Jusqu’à présent, on savait que le cerveau utilisait la récompense pour apprendre : il compare ce qu’on espère obtenir avec ce qu’on a réellement obtenu, et s’en sert pour décider si une action vaut la peine d’être refaite ou non. Mais des chercheurs de l’University College de London ont découvert un deuxième système d’apprentissage. Celui-ci ne tient pas compte du résultat, mais de la fréquence : il renforce les actions qu’on a faites souvent dans le passé, même si elles n’étaient pas forcément utiles ou récompensées.
Il a déjà été démontré que le premier système d’apprentissage, basé sur la récompense, implique la dopamine : quand un résultat est meilleur ou pire qu’attendu, les neurones à dopamine le signalent (ce signal s’appelle l’erreur de prédiction de récompense). Toutefois, les chercheurs ont montré dans cette étude que la seconde stratégie, qui serait liée aux habitudes, envoie également des signaux dopaminergiques quand une action est souvent répétée (ce signal s’appelle l’erreur de prédiction d’action). Ce deuxième système pourrait permettre au cerveau, selon les auteurs, de libérer des ressources cognitives : une fois une action automatisée (comme un trajet), on peut faire autre chose en parallèle (écouter un podcast, téléphoner…).
Les neurones qui servent à apprendre par la récompense envoient leurs signaux vers une région située à l’avant du cerveau appelée noyau accumbens (partie ventrale du striatum). Les chercheurs ont montré que les neurones dopaminergiques impliqués dans l’apprentissage par la répétition d’actions envoient leurs signaux vers une autre zone située plus à l’arrière du cerveau, appelée queue du striatum. Les scientifiques ont mené des expériences chez des souris, en utilisant une tâche pour laquelle les animaux devaient choisir entre deux sons. Pour certains animaux, la queue du striatum était lésée. Les chercheurs ont remarqué que ces souris apprenaient la tâche aussi bien que celles témoins au départ, puis une fois que chaque souris avait développé une préférence pour l’un des deux sons, les souris témoins choisissaient plus rapidement que celles lésées.
Les chercheurs ont par la suite bloqué cette zone chez des souris déjà entraînées et ont observé une chute drastique de leurs performances. Ainsi, au départ, les souris apprendraient par récompense puis, une fois l’action répétée, c’est le système "par habitude" qui prendrait le relais. Ces résultats pourraient expliquer pourquoi certaines habitudes sont si difficiles à changer : elles ne sont pas conservées parce qu’elles sont utiles ou agréables, mais parce qu’on les a répétées souvent. Une fois ancrées par ce second système d’apprentissage, le cerveau pourrait les déclencher automatiquement, même si elles ne sont plus adaptées. Les chercheurs suggèrent que pour casser une mauvaise habitude, le plus efficace serait de la remplacer par une nouvelle, afin de créer un automatisme alternatif par répétition.
Les scientifiques ont identifié une zone précise du cerveau impliquée, ce qui pourrait permettre d’ouvrir la voie à de futures thérapies ciblées dans les troubles où les habitudes prennent le dessus, comme les addictions, les comportements compulsifs. Cette découverte a également une répercussion pour la maladie de Parkinson. En effet, dans cette maladie, les neurones à dopamine dégénèrent. Il se pourrait que ces neurones soient impliquée dans le système d’apprentissage par action répétée, ce qui pourrait expliquer pourquoi un patient parkinsonien a parfois du mal à réaliser des mouvements automatiques comme marcher, mais arrive à faire des gestes plus inhabituels comme du patinage artistique.
Nature : https://www.nature.com/articles/s41586-025-09008-9