Certains systèmes intracrâniens parviennent à décoder efficacement des caractéristiques interprétables (par exemple, des lettres, des mots, des spectrogrammes). Ces dispositifs sont toutefois plutôt invasifs, et ne sont généralement pas adaptés à la parole naturelle.
Jean-Rémi King et ses collègues de Meta ont donc développé une IA capable de traduire des enregistrements de magnéto- et électro-encéphalographie (qui sont des techniques non-invasives) en mots. La technologie n’en est qu’à ses balbutiements, mais les premiers résultats sont encourageants : pour chaque enregistrement, l’IA a prédit une liste de 10 mots, et 73 % du temps cette liste comprenait le mot correct ; dans 44 % des cas, le premier mot prédit était le bon. La prochaine étape pourrait être d’essayer d’interpréter les pensées d’une personne.
Pour entraîner leur IA, King et ses collaborateurs ont utilisé des ensembles de données publiques d’ondes cérébrales provenant de 169 volontaires, collectées alors qu’ils écoutaient des enregistrements de personnes s’exprimant de façon naturelle. Ces données d’ondes, enregistrées par magnéto- ou électro-encéphalographie (M/EEG), ont été segmentées en blocs de trois secondes ; ces derniers ont été soumis à l’IA, accompagnés des fichiers sonores correspondants — l’objectif étant que le logiciel les compare pour identifier des modèles.
Parmi les données disponibles, 10 % ont été réservées à la phase de test. En d’autres termes, ces ondes cérébrales n’avaient jamais été examinées par l’IA auparavant. Et le programme a brillamment passé le test : il a été capable de déduire des ondes cérébrales quels mots individuels, à partir d’une liste de 793 mots, chaque personne écoutait à ce moment-là.
« Les résultats montrent que notre modèle peut identifier, à partir de 3s de signaux MEG, le segment de parole correspondant avec une précision allant jusqu’à 72,5 % dans le top-10 sur 1594 segments distincts (et 44 % dans le top-1) », précisent les chercheurs. Pour les enregistrements de type EEG, l’IA a affiché une moindre précision : elle a été capable de prédire une liste de dix mots contenant le mot correct dans 19,1 % des cas, sur 2604 segments distincts. Ces résultats tracent une voie prometteuse pour décoder le traitement du langage naturel en temps réel à partir d’enregistrements non invasifs de l’activité cérébrale.
Cette technologie pourrait conduire au développement d’un système capable d’interpréter les pensées d’une personne et donc potentiellement permettre aux personnes incapables de parler de communiquer à nouveau. Meta a récemment annoncé un partenariat de recherche à long terme — avec le centre de neuroimagerie cérébrale NeuroSpin, du CEA et l’INRIA — pour étudier le cerveau humain et, en particulier, la façon dont il traite le langage. L’objectif est de collecter les données nécessaires au développement d’une IA capable de traiter la parole et le texte aussi efficacement que les humains.
Article rédigé par Georges Simmonds pour RT Flash