RTFlash

Quand les IA miment l’activité cérébrale

Grâce à la technique de l’apprentissage autosupervisé, les réseaux de neurones artificiels sont désormais capables d’identifier par eux-mêmes ce qui est important. Une performance qui pourrait être à la base du succès de notre propre cerveau.

Depuis une décennie déjà, les plus impressionnants systèmes d’intelligence artificielle sont majoritairement formés à l’aide d’énormes inventaires de données "étiquetées". En effet, on étiquette une image, par exemple "chat tigré" ou "chat-tigre" (comme l’oncille en Amérique du Sud ou en le serval Afrique) pour "entraîner" un réseau de neurones artificiel à distinguer correctement un chat tigré d’un chat-tigre. Cette stratégie s’est révélée à la fois spectaculairement gagnante et terriblement déficiente.

Un tel entraînement, dit "supervisé", nécessite des données laborieusement étiquetées par des humains, et les réseaux neuronaux prennent souvent de mauvais raccourcis, apprenant à associer les étiquettes à des informations minimales voire, parfois, superficielles. Par exemple, un réseau de neurones pourrait utiliser la présence d’herbe pour reconnaître la photo d’une vache, du fait que les vaches sont généralement photographiées dans des champs.

« Nous érigeons une génération d’algorithmes se comportant comme des étudiants [qui] ne sont pas venus en cours pendant tout le semestre et qui, la veille de l’examen final, se mettent à bachoter », résume Alexei Efros, informaticien à l’Université de Californie à Berkeley. « Ils n’apprennent pas vraiment la matière, mais ils réussissent l’examen ».

En outre, pour les chercheurs qui s’intéressent à l’intersection entre l’intelligence animale et l’intelligence artificielle, cet apprentissage supervisé risque de montrer rapidement ses limites, quant à éclairer le fonctionnement des cerveaux biologiques. En effet, les animaux – y compris les humains – n’utilisent pas des collections de données étiquetées pour apprendre. La plupart explorent l’environnement par eux-mêmes et, ce faisant, acquièrent une compréhension riche et solide du monde.

Dernièrement, des chercheurs en neurosciences computationnelles se sont mis à examiner des réseaux de neurones entraînés avec peu ou pas de données étiquetées par l’homme. Ces algorithmes d’apprentissage autosupervisé ont prouvé leur très grande efficacité à modéliser le langage humain et, plus récemment, à faire de la reconnaissance d’images. Dans des travaux récents, des modèles computationnels des systèmes visuels et auditifs des mammifères construits sur la base d’apprentissage autosupervisé ont affiché une meilleure correspondance avec le fonctionnement cérébral que leurs homologues à apprentissage supervisé. Au point que pour certains neuroscientifiques, c’est comme si les réseaux artificiels se mettaient désormais à dévoiler les méthodes que notre cerveau utilise réellement pour apprendre.

Les modélisations du cerveau inspirées des réseaux neuronaux artificiels sont arrivées à maturité il y a une dizaine d’années quand, dans le même temps, ou presque, le réseau neuronal artificiel appelé AlexNet a révolutionné la classification d’images inconnues. Ce réseau, comme tous les réseaux neuronaux, était constitué de couches de neurones artificiels, des unités de calcul qui forment des connexions entre elles dont la force, ou le "poids", peut varier. Si un réseau neuronal échoue à classer correctement une image, l’algorithme d’apprentissage modifie le poids des connexions entre les neurones afin de rendre cette erreur de classification moins probable à la session suivante. L’algorithme répète ce processus de nombreuses fois avec toutes les images d’entraînement, en modifiant les poids des neurones, jusqu’à ce que le taux d’erreur du réseau tombe à un niveau acceptable.

À la même époque, les neuroscientifiques ont développé, à l’aide de réseaux neuronaux comme AlexNet et ses successeurs, les premiers modèles informatiques d’une partie spécifique du cerveau des primates : le système visuel. L’union semblait prometteuse : lorsqu’on montrait les mêmes images aux singes et aux réseaux neuronaux artificiels, par exemple, l’activité des neurones réels et des neurones artificiels présentait une étonnante correspondance. Des modèles artificiels d’audition et de détection des odeurs ont suivi.

Mais à mesure que le domaine a progressé, les chercheurs ont découvert les limites de l’entraînement supervisé. Par exemple, en 2017, Leon Gatys, un informaticien alors à l’Université de Tübingen, en Allemagne, et ses collègues ont superposé un motif de peau de léopard à l’image d’une Ford Model T. Ils ont ainsi obtenu une image bizarre mais facilement reconnaissable. Un réseau neuronal artificiel, parmi les plus performants du moment, a correctement classé l’image originale (sans superposition) comme étant un Modèle T, mais il a considéré l’image modifiée comme étant un léopard. Il s’était fixé sur la texture et avait ignoré la forme de la voiture (ou celle du léopard, d’ailleurs).

Les stratégies d’apprentissage autosupervisé sont conçues pour éviter de tels problèmes. Dans cette approche, les humains n’étiquettent pas les données. Plutôt, « les étiquettes proviennent des données elles-mêmes », explique Friedemann Zenke, neuroscientifique computationnel à l’Institut Friedrich-Miescher pour la recherche biomédicale, à Bâle, en Suisse. Comment ? Le principe essentiel est que les algorithmes autosupervisés créent délibérément des lacunes dans les données et demandent au réseau neuronal de les combler. Par exemple, dans ce qu’on nomme un « modèle de langage de grande taille », l’algorithme d’entraînement consiste à présenter au réseau neuronal les premiers mots d’une phrase et à lui demander de prédire le mot suivant. Lorsqu’il est entraîné à l’aide d’un corpus massif de textes glanés sur internet, le modèle semble ainsi apprendre la structure syntaxique de la langue, démontrant une capacité linguistique impressionnante – le tout sans étiquettes ni supervision externe.

Un effort similaire est en cours dans le domaine de la vision par ordinateur. Fin 2021, Kaiming He (chercheur membre de l’équipe Meta AI Research) et ses collègues ont révélé leur "autoencodeur à masque", qui s’appuie sur une technique conçue par l’équipe d’Alexei Efros en 2016. L’algorithme d’apprentissage autosupervisé masque aléatoirement les images, obscurcissant près des trois quarts de chacune d’entre elles. L’autoencodeur à masque transforme les parties non masquées en représentations latentes – des descriptions mathématiques compressées qui contiennent des informations importantes sur un objet. Dans le cas d’une image, la représentation latente peut être une description mathématique qui saisit, entre autres, la forme d’un objet dans l’image. Un décodeur reconvertit ensuite ces représentations en images complètes.

L’algorithme d’apprentissage autosupervisé entraîne le combiné codeur-décodeur à transformer les images masquées en leurs versions complètes. Toutes les différences entre les images réelles et les images reconstruites sont alors réinjectées dans le système pour l’aider à apprendre. Ce processus est répété pour un ensemble d’images d’entraînement jusqu’à ce que le taux d’erreur du système soit acceptablement faible. Dans un exemple, lorsqu’on a montré à un autoencodeur à masque déjà entraîné une nouvelle image d’un bus masqué à près de 80 %, le système a réussi à reconstruire la structure du bus. « C’est un résultat très, très impressionnant », a jugé Alexei Efros.

Les représentations latentes créées dans un système comme celui-ci semblent inclure des informations beaucoup plus profondes que celles susceptibles d’être produites dans les stratégies précédentes. Le système pourrait apprendre la forme d’une voiture, par exemple, ou d’un léopard, et pas seulement leur motif. « Et c’est là vraiment l’idée fondamentale de l’apprentissage autosupervisé : vous construisez vos connaissances de bas en haut », explique Alexei Efros.

Certains neuroscientifiques voient dans de tels systèmes les échos de la façon dont nous apprenons. « Pour moi, il n’y a aucun doute que 90 % de ce que fait le cerveau est un apprentissage autosupervisé », affirme Blake Richards, chercheur en neurosciences computationnelles de l’Université McGill et du Mila, l’institut québécois d’intelligence artificielle. Selon une hypothèse largement partagée sur le fonctionnement des cerveaux biologiques, ceux-ci prédisent continuellement, par exemple, l’emplacement futur d’un objet lorsqu’il se déplace, ou le prochain mot d’une phrase. Tout comme un algorithme d’apprentissage autosupervisé tente de prédire les lacunes dans une image ou dans un fragment de texte. Par ailleurs, l’expérience quotidienne le montre, les cerveaux apprennent le plus souvent par eux-mêmes de leurs erreurs – seule une petite partie des informations faisant suite à une de nos actions provient d’une source externe qui, en substance, fait passer le message "mauvaise réponse".

Prenons par exemple le système visuel des humains et des autres primates. C’est le système sensoriel animal le mieux étudié. Pourtant, les neuroscientifiques ont eu le plus grand mal à expliquer pourquoi il inclut deux voies distinctes : le flux visuel ventral, responsable de la reconnaissance des objets et des visages, et le flux visuel dorsal, qui traite le mouvement (les voies du "quoi" et du "où", respectivement).

Blake Richards et son équipe ont créé un modèle autosupervisé qui suggère une réponse. Ils ont entraîné une IA qui combine deux réseaux neuronaux différents : le premier, conçu selon l’architecture dite "ResNet", a été conçu pour le traitement des images ; le second, un réseau dit "récurrent", peut garder la trace d’une séquence d’entrées antérieures pour faire des prédictions sur la prochaine entrée attendue. Pour entraîner l’IA combinée, l’équipe commence – schématiquement – par choisir une séquence de dix images issues d’une vidéo et laisse le réseau ResNet les traiter une par une. Le réseau récurrent prédit ensuite la représentation latente de la onzième image, sans se limiter simplement à la faire coïncider avec les dix premières images. L’algorithme d’apprentissage autosupervisé compare alors la prédiction à la valeur réelle et demande aux deux réseaux neuronaux de modifier leurs poids pour améliorer la prédiction.

L’équipe de Richards a constaté que cette IA, entraînée avec un seul réseau ResNet, était performante pour la reconnaissance d’objets, mais pas pour la catégorisation des mouvements. Les chercheurs ont alors divisé le réseau ResNet unique en deux, créant ainsi deux voies (sans modifier le nombre total de neurones). L’IA a, dès lors, développé des représentations pour les objets dans l’une et pour le mouvement dans l’autre, permettant une catégorisation en aval de ces propriétés – tout comme le fait probablement notre cerveau.

Article rédigé par Georges Simmonds pour RT Flash

PLS

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top