Nouvel algorithme aces questions de cours de mathématiques universitaires
Le calcul multivariable, les équations différentielles, les sujets d’algèbre linéaire que de nombreux étudiants du MIT peuvent maîtriser sans transpirer ont constamment bloqué les modèles d’apprentissage automatique. Les meilleurs modèles n’ont pu répondre qu’à des questions mathématiques de niveau primaire ou secondaire, et ils ne trouvent pas toujours les bonnes solutions.
Maintenant, une équipe multidisciplinaire de chercheurs du MIT et d’ailleurs, dirigée par Iddo Drori, maître de conférences au Département de génie électrique et d’informatique (EECS) du MIT, a utilisé un modèle de réseau de neurones pour résoudre des problèmes mathématiques de niveau universitaire en quelques secondes. au niveau humain.
Le modèle explique également automatiquement les solutions et génère rapidement de nouveaux problèmes dans les matières mathématiques universitaires. Lorsque les chercheurs ont montré ces questions générées par des machines à des étudiants universitaires, ces derniers étaient incapables de dire si les questions étaient générées par un algorithme ou par un humain.
Ce travail pourrait être utilisé pour rationaliser la génération de contenu pour les cours, ce qui pourrait être particulièrement utile dans les grands cours résidentiels et les cours en ligne ouverts et massifs (MOOC) qui comptent des milliers d’étudiants. Le système pourrait également être utilisé comme un tuteur automatisé qui montre aux étudiants les étapes nécessaires à la résolution de problèmes mathématiques de premier cycle.
Nous pensons que cela améliorera l’enseignement supérieur, déclare Drori, l’auteur principal des travaux qui est également professeur agrégé adjoint au Département d’informatique de l’Université de Columbia, et qui rejoindra la faculté de l’Université de Boston cet été. Cela aidera les élèves à s’améliorer, et cela aidera les enseignants à créer de nouveaux contenus, et cela pourrait aider à augmenter le niveau de difficulté de certains cours. Cela nous permet également de construire un graphique de questions et de cours, ce qui nous aide à comprendre la relation entre les cours et leurs prérequis, non seulement en les contemplant historiquement, mais sur la base de données.
Le travail est une collaboration entre des étudiants, des chercheurs et des professeurs du MIT, de l’Université Columbia, de l’Université Harvard et de l’Université de Waterloo. L’auteur principal est Gilbert Strang, professeur de mathématiques au MIT. La recherche apparaît cette semaine dans le Actes de l’Académie nationale des sciences.
Un moment eurêka
Drori et ses étudiants et collègues travaillent sur ce projet depuis près de deux ans. Ils ont découvert que les modèles pré-entraînés utilisant uniquement du texte ne pouvaient pas faire mieux que 8% de précision sur les problèmes mathématiques du secondaire, et ceux qui utilisaient des réseaux de neurones graphiques pouvaient réussir les questions du cours d’apprentissage automatique, mais prendraient une semaine pour s’entraîner.
Ensuite, Drori a eu ce qu’il décrit comme un moment d’eureka : il a décidé d’essayer de prendre des questions de cours de mathématiques de premier cycle offerts par le MIT et un de l’Université de Columbia qui n’avaient jamais été vus auparavant par un modèle, de les transformer en tâches de programmation et d’appliquer des techniques connues sous le nom de synthèse de programme et apprentissage en quelques coups. Transformer une question en une tâche de programmation pourrait être aussi simple que de réécrire la question pour trouver la distance entre deux points comme d’écrire un programme qui trouve la différence entre deux points, ou de fournir quelques paires question-programme comme exemples.
Avant de transmettre ces tâches de programmation à un réseau de neurones, cependant, les chercheurs ont ajouté une nouvelle étape qui lui a permis de surpasser largement leurs tentatives précédentes.
Dans le passé, eux et d’autres qui ont abordé ce problème ont utilisé un réseau de neurones, tel que GPT-3, qui était pré-formé sur du texte uniquement, ce qui signifie qu’il a été montré des millions d’exemples de texte pour apprendre les modèles du langage naturel. Cette fois, ils ont utilisé un réseau neuronal pré-entraîné sur du texte qui a également été affiné sur du code. Ce réseau, appelé Codex, a été produit par OpenAI. Le réglage fin est essentiellement une autre étape de préformation qui peut améliorer les performances d’un modèle d’apprentissage automatique.
Le modèle pré-entraîné s’est vu montrer des millions d’exemples de code provenant de référentiels en ligne. Étant donné que les données de formation de ce modèle comprenaient des millions de mots en langage naturel ainsi que des millions de lignes de code, il apprend les relations entre les morceaux de texte et les morceaux de code.
De nombreux problèmes mathématiques peuvent être résolus à l’aide d’un graphe ou d’un arbre de calcul, mais il est difficile de transformer un problème écrit en texte en ce type de représentation, explique Drori. Cependant, comme ce modèle a appris les relations entre le texte et le code, il peut transformer une question textuelle en code, à partir de quelques exemples de code de question, puis exécuter le code pour répondre au problème.
Lorsque vous posez simplement une question dans le texte, il est difficile pour un modèle d’apprentissage automatique de trouver une réponse, même si la réponse peut être dans le texte, dit-il. Ce travail remplit la pièce manquante de l’utilisation de la synthèse de code et de programme.
Ce travail est le premier à résoudre des problèmes mathématiques de premier cycle et fait passer l’aiguille d’une précision de 8% à plus de 80%, ajoute Drori.
Ajout de contexte
Transformer des questions mathématiques en tâches de programmation n’est pas toujours simple, dit Drori. Certains problèmes nécessitent que les chercheurs ajoutent du contexte afin que le réseau de neurones puisse traiter correctement la question. Un étudiant reprendrait ce contexte tout en suivant le cours, mais un réseau de neurones n’a pas cette connaissance de base à moins que les chercheurs ne le précisent.
Par exemple, ils pourraient avoir besoin de préciser que le réseau dans un texte de questions fait référence à des réseaux de neurones plutôt qu’à des réseaux de communication. Ou ils peuvent avoir besoin de dire au modèle quel package de programmation utiliser. Ils peuvent également être amenés à fournir certaines définitions ; dans une question sur les mains de poker, ils peuvent avoir besoin de dire au modèle que chaque paquet contient 52 cartes.
Ils transmettent automatiquement ces tâches de programmation, avec le contexte et les exemples inclus, au réseau de neurones pré-entraîné et affiné, qui produit un programme qui produit généralement la bonne réponse. C’était correct pour plus de 80% des questions.
Les chercheurs ont également utilisé leur modèle pour générer des questions en donnant au réseau de neurones une série de problèmes mathématiques sur un sujet, puis en lui demandant d’en créer un nouveau.
Dans certains sujets, cela nous a surpris. Par exemple, il y avait des questions sur la détection quantique des lignes horizontales et verticales, et cela a généré de nouvelles questions sur la détection quantique des lignes diagonales. Ainsi, il ne s’agit pas seulement de générer de nouvelles questions en remplaçant des valeurs et des variables dans les questions existantes, explique Drori.
Questions générées par l’homme ou générées par la machine
Les chercheurs ont testé les questions générées par la machine en les montrant à des étudiants universitaires. Les chercheurs ont donné aux étudiants 10 questions de chaque cours de mathématiques de premier cycle dans un ordre aléatoire ; cinq ont été créés par des humains et cinq ont été générés par des machines.
Les étudiants étaient incapables de dire si les questions générées par la machine étaient produites par un algorithme ou par un humain, et ils ont attribué aux questions générées par l’homme et par la machine des notes similaires pour le niveau de difficulté et la pertinence du cours.
Drori s’empresse de souligner que ce travail n’est pas destiné à remplacer les professeurs humains.
L’automatisation est maintenant à 80 %, mais l’automatisation ne sera jamais précise à 100 %. Chaque fois que vous résolvez quelque chose, quelqu’un vous posera une question plus difficile. Mais ce travail ouvre le champ pour que les gens commencent à résoudre des questions de plus en plus difficiles avec l’apprentissage automatique. Nous pensons que cela aura un grand impact sur l’enseignement supérieur, dit-il.
L’équipe est enthousiasmée par le succès de son approche et a étendu le travail pour gérer les preuves mathématiques, mais elle prévoit de s’attaquer à certaines limites. Actuellement, le modèle n’est pas en mesure de répondre aux questions avec une composante visuelle et ne peut pas résoudre les problèmes insolubles sur le plan informatique en raison de la complexité des calculs.
En plus de surmonter ces obstacles, ils s’efforcent d’étendre le modèle à des centaines de cours. Avec ces centaines de cours, ils généreront plus de données qui peuvent améliorer l’automatisation et donner un aperçu de la conception des cours et des programmes.