Les ingénieurs de Stanford présentent une nouvelle puce qui accélère l’efficacité du calcul de l’IA

18 août 2022

Les ingénieurs de Stanford ont créé une puce IA plus efficace et flexible, qui pourrait apporter la puissance de l’IA dans de minuscules appareils de pointe.

L’informatique de pointe alimentée par l’IA est déjà omniprésente dans nos vies. Des appareils comme les drones, les appareils portables intelligents et les capteurs IoT industriels sont équipés de puces compatibles avec l’IA afin que l’informatique puisse se produire à la périphérie d’Internet, d’où proviennent les données. Cela permet un traitement en temps réel et garantit la confidentialité des données.

La puce NeuRRAM est non seulement deux fois plus économe en énergie que les puces de pointe, mais elle est également polyvalente et fournit des résultats tout aussi précis que les puces numériques conventionnelles. (Crédit image : David Baillot/Université de Californie à San Diego.)

Cependant, les fonctionnalités d’IA sur ces minuscules appareils de périphérie sont limitées par l’énergie fournie par une batterie. Par conséquent, l’amélioration de l’efficacité énergétique est cruciale. Dans les puces d’intelligence artificielle d’aujourd’hui, le traitement et le stockage des données se produisent à des endroits distincts, une unité de calcul et une unité de mémoire. Le mouvement fréquent des données entre ces unités consomme la majeure partie de l’énergie pendant le traitement de l’IA, donc la réduction du mouvement des données est la clé pour résoudre le problème énergétique.

Les ingénieurs de l’Université de Stanford ont proposé une solution potentielle : une nouvelle puce de mémoire résistive à accès aléatoire (RRAM) qui effectue le traitement de l’IA dans la mémoire elle-même, éliminant ainsi la séparation entre les unités de calcul et de mémoire. Leur puce de calcul en mémoire (CIM), appelée NeuRRAM, a à peu près la taille d’un doigt et fait plus de travail avec une batterie limitée que ce que les puces actuelles peuvent faire.

Le fait que ces calculs soient effectués sur la puce au lieu d’envoyer des informations vers et depuis le cloud pourrait permettre une IA plus rapide, plus sécurisée, moins chère et plus évolutive à l’avenir, et donner à plus de personnes accès à la puissance de l’IA, a déclaré H.-S Philip Wong , professeur Willard R. et Inez Kerr Bell à la School of Engineering.

Le problème du déplacement des données revient à passer huit heures en trajet pour une journée de travail de deux heures, a ajouté Weier Wan, un récent diplômé de Stanford à la tête de ce projet. Avec notre puce, nous montrons une technologie pour relever ce défi.

Ils ont présenté NeuRRAM dans un récent article de la revue La nature. Bien que le calcul en mémoire existe depuis des décennies, cette puce est la première à démontrer une large gamme d’applications d’IA sur le matériel, plutôt que par la seule simulation.

Mettre la puissance de calcul sur l’appareil

Pour surmonter le goulot d’étranglement du mouvement des données, les chercheurs ont mis en œuvre ce que l’on appelle le calcul en mémoire (CIM), une nouvelle architecture de puce qui effectue le calcul de l’IA directement dans la mémoire plutôt que dans des unités de calcul séparées. La technologie de mémoire utilisée par NeuRRAM est la mémoire résistive à accès aléatoire (RRAM). Il s’agit d’un type de mémoire non volatile qui conserve les données même une fois l’alimentation coupée et qui a fait son apparition dans les produits commerciaux. La RRAM peut stocker de grands modèles d’IA dans une petite zone et consomme très peu d’énergie, ce qui les rend parfaits pour les appareils de périphérie de petite taille et à faible consommation.

Même si le concept des puces CIM est bien établi et que l’idée d’implémenter l’informatique IA dans la RRAM n’est pas nouvelle, c’est l’une des premières instances à intégrer beaucoup de mémoire directement sur la puce du réseau neuronal et à présenter tous les résultats de référence grâce à des mesures matérielles. , a déclaré Wong, co-auteur principal du La nature papier.

L’architecture de NeuRRAM permet à la puce d’effectuer des calculs analogiques en mémoire à faible puissance et dans une empreinte compacte. Il a été conçu en collaboration avec le laboratoire de Gert Cauwenberghs de l’Université de Californie à San Diego, pionnier de la conception de matériel neuromorphique à faible consommation. L’architecture permet également la reconfigurabilité dans les directions du flux de données, prend en charge diverses stratégies de cartographie de la charge de travail de l’IA et peut fonctionner avec différents types d’algorithmes d’IA sans sacrifier la précision des calculs de l’IA.

Pour montrer la précision des capacités de NeuRRAMs AI, l’équipe a testé son fonctionnement sur différentes tâches. Ils ont constaté qu’il était précis à 99 % dans la reconnaissance des lettres à partir de l’ensemble de données MNIST, à 85,7 % précis sur la classification des images à partir de l’ensemble de données CIFAR-10, à 84,7 % précis sur la reconnaissance des commandes vocales de Google et a montré une réduction de 70 % de l’erreur de reconstruction d’image sur un bayésien. tâche de récupération d’image.

L’efficacité, la polyvalence et la précision sont tous des aspects importants pour une adoption plus large de la technologie, a déclaré Wan. Mais les réaliser toutes d’un coup n’est pas simple. Co-optimiser la pile complète du matériel au logiciel est la clé.

Une telle co-conception complète est rendue possible grâce à une équipe internationale de chercheurs aux expertises diverses, a ajouté Wong.

Alimenter les calculs de pointe du futur

À l’heure actuelle, NeuRRAM est une preuve de concept physique, mais a besoin de plus de développement avant d’être prêt à être traduit en dispositifs de périphérie réels.

Mais cette efficacité, cette précision et cette capacité combinées à effectuer différentes tâches mettent en valeur le potentiel des puces. Peut-être qu’aujourd’hui, il est utilisé pour effectuer des tâches d’IA simples telles que la détection de mots clés ou la détection humaine, mais demain, il pourrait permettre une expérience utilisateur complètement différente. Imaginez l’analyse vidéo en temps réel combinée à la reconnaissance vocale dans un petit appareil, a déclaré Wan. Pour y parvenir, nous devons continuer à améliorer la conception et à faire évoluer la RRAM vers des nœuds technologiques plus avancés.

Ce travail ouvre plusieurs voies de recherche future sur l’ingénierie des dispositifs RRAM, ainsi que sur les modèles de programmation et la conception de réseaux neuronaux pour le calcul en mémoire, afin de rendre cette technologie évolutive et utilisable par les développeurs de logiciels, a déclaré Priyanka Raina, professeure adjointe de génie électrique et co-auteur de l’article.

En cas de succès, les puces de calcul en mémoire RRAM comme NeuRRAM ont un potentiel presque illimité. Ils pourraient être intégrés dans les champs de culture pour effectuer des calculs d’IA en temps réel afin d’ajuster les systèmes d’irrigation aux conditions actuelles du sol. Ou ils pourraient transformer des lunettes de réalité augmentée de casques maladroits avec des fonctionnalités limitées en quelque chose de plus proche de l’écran de visualisation de Tony Starks dans le Homme de fer et Vengeurs films (sans menaces intergalactiques ou multivers on peut espérer).

Si elles étaient produites en masse, ces puces seraient suffisamment bon marché, suffisamment adaptables et suffisamment peu gourmandes pour pouvoir être utilisées pour faire progresser des technologies améliorant déjà nos vies, a déclaré Wong, comme dans les dispositifs médicaux qui permettent la surveillance de la santé à domicile.

Ils peuvent également être utilisés pour résoudre des défis sociétaux mondiaux : les capteurs activés par l’IA joueraient un rôle dans le suivi et la lutte contre le changement climatique. En ayant ces types d’électronique intelligente qui peuvent être placés presque n’importe où, vous pouvez surveiller l’évolution du monde et faire partie de la solution, a déclaré Wong. Ces puces pourraient être utilisées pour résoudre toutes sortes de problèmes, du changement climatique à la sécurité alimentaire.

Les co-auteurs supplémentaires de ce travail incluent des chercheurs de l’Université de Californie à San Diego (co-responsable), de l’Université Tsinghua, de l’Université de Notre Dame et de l’Université de Pittsburgh. L’ancien étudiant diplômé de Stanford, Sukru Burc Eryilmaz, est également co-auteur. Wong est membre de Stanford Bio-X et du Wu Tsai Neurosciences Institute, et affilié au Precourt Institute for Energy. Il est également directeur de la faculté de l’installation de nanofabrication de Stanford et codirecteur de la faculté fondatrice de la Stanford SystemX Alliance – un programme d’affiliation industrielle à Stanford axé sur les systèmes de construction.

Cette recherche a été financée par le Fondation nationale de la science Expéditions en informatique, CRS SAUT Centre ASCENT, Alliance SystemX de Stanford, NMTRI de StanfordBeijing Innovation Center for Future Chips, National Natural Science Foundation of China et le Bureau de la recherche navale.

-30-

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite