RTFlash

Un nouveau modèle d'IA modulaire

Tout le monde a entendu parler des grands modèles de langage (LLM). Ce sont des modèles d’apprentissage profond à grande échelle entraînés sur d’immenses quantités de texte qui constituent la base des chatbots tels que ChatGPT d’OpenAI. Les modèles multimodaux (MM) de nouvelle génération peuvent apprendre à partir d’entrées autres que du texte, y compris la vidéo, les images et le son.

La création de modèles multimodaux à plus petite échelle soulève des défis majeurs, dont celui de la fiabilité face aux informations manquantes non aléatoires. Il s’agit d’informations dont ne dispose pas un modèle, souvent en raison d’une disponibilité biaisée des ressources. Il est donc essentiel de veiller à ce que le modèle n’apprenne pas les schémas d’absence biaisés en faisant ses prédictions.

Pour remédier à ce problème, des chercheuses et chercheurs du Laboratoire d’apprentissage machine pour l’éducation (ML4ED) et du Laboratoire d’apprentissage machine et d’optimisation (MLO) de la Faculté informatique et communications de l’EPFL ont développé et testé l’exact opposé d’un grand modèle de langage. Créé sous l’impulsion de la professeure Mary-Anne Hartley, responsable du Laboratory for intelligent Global Health Technologies, hébergé conjointement au Laboratoire MLO et à l’École de médecine de Yale, et de la professeure Tanja Käser, responsable du Laboratoire ML4ED, MultiModN est un modèle multimodal modulaire unique, récemment présenté lors de la conférence NeurIPS2023.

À l’instar des modèles multimodaux actuels, MultiModN peut apprendre à partir de textes, d’images, de vidéos et de sons. Contrairement aux modèles multimodaux existants, ce dernier est composé d’un nombre de modules plus petits, autonomes et spécifiques aux entrées, qui peuvent être sélectionnés selon les informations disponibles, puis enchaînés dans une séquence de n’importe quel nombre, combinaison ou type d’entrée. Il peut ensuite produire n’importe quel nombre ou combinaison de prédictions. « Nous avons évalué MultiModN dans dix tâches réelles, dont l’aide au diagnostic médical, la prédiction des résultats scolaires et les prévisions météorologiques. Grâce à ces expériences, nous pensons que MultiModN est la première approche de la modélisation multimodale intrinsèquement interprétable et résistante aux données manquantes de façon non aléatoire (MNAR) », explique Vinitra Swamy, doctorante aux Laboratoires ML4ED et MLO et co-autrice principale du projet.

Le premier cas d’utilisation de MultiModN sera un système d’aide à la décision clinique destiné au personnel médical dans les environnements à faibles ressources. Dans le domaine de la santé, les données cliniques sont souvent manquantes, peut-être en raison de contraintes de ressources (un patient ou une patiente n’a pas les moyens de passer le test) ou d’une abondance de ressources (le test est redondant en raison d’un test supérieur qui a été effectué). MultiModN peut apprendre à partir de ces données réelles sans adopter ses biais, et adapter ses prédictions à n’importe quel nombre ou combinaison d’entrées. « L’absence est une caractéristique des données dans les environnements à faibles ressources. Lorsque les modèles apprennent ces schémas d’absence, ils peuvent encoder des biais dans leurs prédictions. Le besoin de flexibilité face à des ressources disponibles de manière imprévisible est à l’origine de MultiModN », précise Mary-Anne Hartley, qui est également médecin.

La publication n’est toutefois que la première étape de la mise en œuvre. Mary-Anne Hartley travaille avec des collègues du Centre hospitalier universitaire vaudois (CHUV) et Inselspital, de l’hôpital universitaire de Berne uBern pour mener des études cliniques axées sur le diagnostic de la pneumonie et de la tuberculose dans des environnements à faibles ressources et recruter des milliers de patientes et patients en Afrique du Sud, en Tanzanie, en Namibie et au Bénin. Les équipes de recherche ont entrepris une vaste initiative de formation pour apprendre à plus de 100 médecins à collecter systématiquement des données multimodales, y compris des images et des vidéos d’échographie. L’objectif est d’entraîner MultiModN à être attentif aux données réelles provenant de régions à faibles ressources.

EPFL

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top