La résolution de la dynamique cérébrale donne naissance à des modèles flexibles d’apprentissage automatique

Les milliardaires vendent des actions Nvidia et achètent…

L’année dernière, des chercheurs du MIT ont annoncé qu’ils avaient construit des réseaux de neurones liquides, inspirés du cerveau de petites espèces : une classe de modèles d’apprentissage automatique flexibles et robustes qui apprennent sur le tas et peuvent s’adapter aux conditions changeantes, pour des applications critiques pour la sécurité dans le monde réel. tâches, comme conduire et voler. La flexibilité de ces réseaux de neurones liquides signifiait renforcer la lignée de notre monde connecté, permettant une meilleure prise de décision pour de nombreuses tâches impliquant des données de séries chronologiques, telles que la surveillance du cerveau et du cœur, les prévisions météorologiques et le cours des actions.

Mais ces modèles deviennent coûteux en calcul à mesure que leur nombre de neurones et de synapses augmente et nécessitent des programmes informatiques maladroits pour résoudre leurs calculs complexes sous-jacents. Et tous ces calculs, similaires à de nombreux phénomènes physiques, deviennent plus difficiles à résoudre avec la taille, ce qui signifie calculer de nombreuses petites étapes pour arriver à une solution.

Maintenant, la même équipe de scientifiques a découvert un moyen d’atténuer ce goulot d’étranglement en résolvant l’équation différentielle derrière l’interaction de deux neurones à travers les synapses pour débloquer un nouveau type d’algorithmes d’intelligence artificielle rapides et efficaces. Ces modes ont les mêmes caractéristiques que les réseaux de neurones liquides flexibles, causaux, robustes et explicables mais sont des ordres de grandeur plus rapides et évolutifs. Ce type de réseau de neurones pourrait donc être utilisé pour toute tâche qui implique d’avoir un aperçu des données au fil du temps, car ils sont compacts et adaptables même après la formation alors que de nombreux modèles traditionnels sont fixes. Il n’y a pas eu de solution connue depuis 1907, l’année où l’équation différentielle du modèle neuronal a été introduit.

Les modèles, surnommés un réseau de neurones à temps continu (CfC) de forme fermée, ont surpassé leurs homologues de pointe sur une multitude de tâches, avec des accélérations et des performances considérablement plus élevées dans la reconnaissance des activités humaines à partir de capteurs de mouvement, la modélisation de la dynamique physique de un robot marcheur simulé et un traitement d’image séquentiel événementiel. Sur une tâche de prédiction médicale, par exemple, les nouveaux modèles ont été 220 fois plus rapides sur un échantillon de 8 000 patients.

Un nouvel article sur le travail est publié aujourd’hui dans Intelligence des machines naturelles.

Les nouveaux modèles d’apprentissage automatique que nous appelons CfC remplacent l’équation différentielle définissant le calcul du neurone par une approximation de forme fermée, préservant les belles propriétés des réseaux liquides sans avoir besoin d’intégration numérique, explique la professeure du MIT Daniela Rus, directrice du département d’informatique. and Artificial Intelligence Laboratory (CSAIL) et auteur principal du nouveau document. Les modèles CfC sont causaux, compacts, explicables et efficaces pour former et prédire. Ils ouvrent la voie à un apprentissage automatique fiable pour les applications critiques pour la sécurité.

Garder les choses liquides

Les équations différentielles nous permettent de calculer l’état du monde ou d’un phénomène au fur et à mesure qu’il évolue, mais pas tout au long du temps, juste étape par étape. Pour modéliser les phénomènes naturels à travers le temps et comprendre les comportements passés et futurs, comme la reconnaissance de l’activité humaine ou la trajectoire d’un robot, par exemple, l’équipe a puisé dans un sac d’astuces mathématiques pour trouver juste le ticket : une solution de forme fermée qui modélise toute la description. d’un système entier, en une seule étape de calcul.

Avec leurs modèles, on peut calculer cette équation à tout moment dans le futur, et à tout moment dans le passé. Non seulement cela, mais la vitesse de calcul est beaucoup plus rapide car vous n’avez pas besoin de résoudre l’équation différentielle étape par étape.

Imaginez un réseau neuronal de bout en bout qui reçoit une entrée de conduite d’une caméra montée sur une voiture. Le réseau est formé pour générer des sorties, comme l’angle de braquage de la voiture. En 2020, l’équipe a résolu ce problème en utilisant des réseaux de neurones liquides à 19 nœuds, de sorte que 19 neurones plus un petit module de perception pourraient conduire une voiture. Une équation différentielle décrit chaque nœud de ce système. Avec la solution de forme fermée, si vous la remplacez à l’intérieur de ce réseau, cela vous donnera le comportement exact, car c’est une bonne approximation de la dynamique réelle du système. Ils peuvent ainsi résoudre le problème avec un nombre encore plus faible de neurones, ce qui signifie que ce serait plus rapide et moins coûteux en calculs.

Ces modèles peuvent recevoir des entrées sous forme de séries chronologiques (événements qui se sont produits dans le temps), qui pourraient être utilisées pour la classification, le contrôle d’une voiture, le déplacement d’un robot humanoïde ou la prévision d’événements financiers et médicaux. Avec tous ces différents modes, il peut également augmenter la précision, la robustesse et les performances, et, surtout, la vitesse de calcul, ce qui est parfois un compromis.

Résoudre cette équation a des implications considérables pour faire avancer la recherche dans les systèmes d’intelligence naturelle et artificielle. Lorsque nous avons une description sous forme fermée de la communication entre les neurones et les synapses, nous pouvons construire des modèles informatiques de cerveaux avec des milliards de cellules, une capacité qui n’est pas possible aujourd’hui en raison de la grande complexité informatique des modèles de neurosciences. L’équation de forme fermée pourrait faciliter de telles simulations de haut niveau et nous ouvre donc de nouvelles voies de recherche pour comprendre l’intelligence, déclare Ramin Hasani, affilié de recherche du MIT CSAIL, premier auteur du nouvel article.

Apprentissage portatif

De plus, il existe des preuves précoces de modèles CfC liquides dans l’apprentissage de tâches dans un environnement à partir d’entrées visuelles et le transfert de leurs compétences acquises dans un environnement entièrement nouveau sans formation supplémentaire. C’est ce qu’on appelle la généralisation hors distribution, qui est l’un des défis ouverts les plus fondamentaux de la recherche en intelligence artificielle.

Les systèmes de réseaux neuronaux basés sur des équations différentielles sont difficiles à résoudre et à mettre à l’échelle, disons, à des millions et des milliards de paramètres. Obtenir cette description de la façon dont les neurones interagissent les uns avec les autres, pas seulement le seuil, mais résoudre la dynamique physique entre les cellules nous permet de construire des réseaux de neurones à plus grande échelle, explique Hasani. Ce cadre peut aider à résoudre des tâches d’apprentissage automatique plus complexes permettant un meilleur apprentissage des représentations et devrait constituer les éléments de base de tout futur système d’intelligence embarquée.

Les architectures de réseaux neuronaux récentes, telles que les ODE neuronaux et les réseaux neuronaux liquides, ont des couches cachées composées de systèmes dynamiques spécifiques représentant des états latents infinis au lieu d’empilements explicites de couches, explique Sildomar Monteiro, responsable du groupe IA et apprentissage automatique chez Aurora Flight Sciences, un Boeing société, qui n’a pas participé à cet article. Ces modèles implicitement définis ont montré des performances de pointe tout en nécessitant beaucoup moins de paramètres que les architectures conventionnelles. Cependant, leur adoption pratique a été limitée en raison du coût de calcul élevé requis pour la formation et l’inférence. Il ajoute que cet article montre une amélioration significative de l’efficacité de calcul pour cette classe de réseaux de neurones. [and] a le potentiel de permettre une gamme plus large d’applications pratiques pertinentes pour les systèmes commerciaux et de défense critiques pour la sécurité.

Hasani et Mathias Lechner, postdoctorant au MIT CSAIL, ont rédigé l’article sous la direction de Rus, aux côtés du MIT Alexander Amini, postdoctorant au CSAIL ; Lucas Liebenwein SM ’18, PhD ’21; Aaron Ray, étudiant au doctorat en génie électrique et en informatique du MIT et affilié à CSAIL ; Max Tschaikowski, professeur associé en informatique à l’Université d’Aalborg au Danemark ; et Gerald Teschl, professeur de mathématiques à l’Université de Vienne.

www.actusduweb.com

Suivez Actusduweb sur Google News