RTFlash

NeuRRAM : un puce neuromorphique peu gourmande en énergie

Une équipe internationale de chercheurs a conçu et fabriqué une puce qui exécute des calculs directement en mémoire et peut faire fonctionner une grande variété d’applications d’IA – le tout à une fraction de l’énergie consommée par les plates-formes informatiques pour l’IA à usage général.

La puce neuromorphique NeuRRAM rapproche l’IA d’un fonctionnement sur une large gamme d’appareils périphériques, déconnectés du nuage, où ils peuvent exécuter des tâches cognitives sophistiquées partout et à tout moment sans dépendre d’une connexion réseau à un serveur centralisé. Les applications abondent aux quatre coins du monde et dans toutes les facettes de notre vie, qu’il s’agisse de montres intelligentes, de casques VR, d’oreillettes intelligentes, de capteurs intelligents dans les usines ou de rovers pour l’exploration spatiale.

La puce NeuRRAM est non seulement deux fois plus économe en énergie que les puces “compute-in-memory” de pointe, une catégorie innovante de puces hybrides qui exécutent des calculs en mémoire, mais elle fournit également des résultats tout aussi précis que les puces numériques classiques. Les plates-formes d’IA conventionnelles sont beaucoup plus volumineuses et sont généralement contraintes d’utiliser de grands serveurs de données fonctionnant dans le nuage.

En outre, la puce NeuRRAM est très polyvalente et prend en charge de nombreux modèles et architectures de réseaux neuronaux différents. Par conséquent, la puce peut être utilisée pour de nombreuses applications différentes, notamment la reconnaissance et la reconstruction d’images ainsi que la reconnaissance vocale. « Or, notre puce NeuRRAM est efficace sans sacrifier la polyvalence », a déclaré Weier Wan, premier auteur correspondant de l’article et récent titulaire d’un doctorat de l’Université de Stanford, qui a travaillé sur la puce à l’Université de San Diego, où il était conseillé par Gert Cauwenberghs du département de bio-ingénierie.

Actuellement, l’IA est à la fois gourmande en énergie et coûteuse en calculs. La plupart des applications d’IA sur les appareils périphériques impliquent le transfert de données des appareils vers le nuage, où l’IA les traite et les analyse. Les résultats sont ensuite renvoyés vers l’appareil. Cela s’explique par le fait que la plupart des périphériques sont alimentés par des batteries et ne disposent donc que d’une quantité limitée d’énergie pouvant être consacrée au calcul.

En réduisant la consommation d’énergie nécessaire à l’inférence de l’IA à la périphérie, cette puce NeuRRAM pourrait conduire à des dispositifs périphériques plus robustes, plus intelligents et plus accessibles, ainsi qu’à une fabrication plus intelligente. Elle pourrait également conduire à une meilleure confidentialité des données, car le transfert de données des appareils vers le cloud s’accompagne de risques de sécurité accrus. Pour résoudre ce problème de transfert de données, les chercheurs ont utilisé ce que l’on appelle la mémoire vive résistive, un type de mémoire non volatile qui permet de calculer directement dans la mémoire plutôt que dans des unités de calcul séparées. La RRAM et d’autres technologies de mémoire émergentes utilisées comme réseaux de synapses pour l’informatique neuromorphique ont été mises au point dans le laboratoire de Philip Wong, conseiller de Wan à Stanford et principal contributeur à ces travaux.

Les chercheurs ont mesuré l’efficacité énergétique de la puce par une mesure connue sous le nom de produit énergie-retard, ou EDP. L’EDP combine à la fois la quantité d’énergie consommée pour chaque opération et le temps qu’il faut pour réaliser l’opération. Selon cette mesure, la puce NeuRRAM atteint un EDP de 1,6 à 2,3 fois inférieur (plus il est faible, mieux c’est) et une densité de calcul de 7 à 13 fois supérieure à celle des puces les plus récentes. Les chercheurs ont exécuté diverses tâches d’intelligence artificielle sur la puce. Elle a atteint une précision de 99 % dans une tâche de reconnaissance de chiffres manuscrits, de 85,7 % dans une tâche de classification d’images et de 84,7 % dans une tâche de reconnaissance de commandes vocales Google. En outre, la puce a également permis de réduire de 70 % l’erreur de reconstruction d’image dans une tâche de récupération d’image. Ces résultats sont comparables à ceux des puces numériques existantes qui effectuent des calculs avec la même précision binaire, mais avec des économies d’énergie considérables.

La clé de l’efficacité énergétique de la NeuRRAM réside dans une méthode innovante de détection de la sortie en mémoire. Les approches conventionnelles utilisent la tension comme entrée et mesurent le courant comme résultat. Mais cela entraîne la nécessité de circuits plus complexes et plus gourmands en énergie. Dans la NeuRRAM, l’équipe a conçu un circuit neuronal qui détecte la tension et effectue une conversion analogique-numérique de manière économe en énergie. Cette détection en mode tension peut activer toutes les lignes et toutes les colonnes d’une matrice RRAM en un seul cycle de calcul, ce qui permet un parallélisme plus élevé.

Dans l’architecture NeuRRAM, les circuits neuronaux CMOS sont physiquement entrelacés avec les poids RRAM. Les connexions du neurone avec la matrice RRAM peuvent être configurées pour servir d’entrée ou de sortie du neurone. Cela rend l’architecture plus facile à reconfigurer.

Article rédigé par Georges Simmonds pour RT Flash

Nature

Noter cet article :

 

Vous serez certainement intéressé par ces articles :

Recommander cet article :

back-to-top