Apprentissage automatique piloté par les étudiants

Les milliardaires vendent des actions Nvidia et achètent…

Dès leurs débuts au MIT, et même avant, Emma Liu ’22, MNG ’22, Yo-whan John Kim ’22, MNG ’22 et Clemente Ocejo ’21, MNG ’22 savaient qu’ils voulaient effectuer des recherches informatiques et explorer intelligence artificielle et apprentissage automatique. Depuis le lycée, j’ai été dans l’apprentissage en profondeur et j’ai été impliqué dans des projets, dit Kim, qui a participé à un programme d’été du Research Science Institute (RSI) au MIT et à l’Université de Harvard et a continué à travailler sur la reconnaissance d’action dans des vidéos utilisant Microsofts Kinect.

En tant qu’étudiants du Département de génie électrique et d’informatique récemment diplômés du programme de thèse de maîtrise en génie (MEng), Liu, Kim et Ocejo ont développé les compétences nécessaires pour aider à guider les projets axés sur les applications. En collaboration avec le MIT-IBM Watson AI Lab, ils ont amélioré la classification des textes avec des données étiquetées limitées et conçu des modèles d’apprentissage automatique pour de meilleures prévisions à long terme pour les achats de produits. Pour Kim, ce fut une transition très fluide et une excellente opportunité pour moi de continuer à travailler dans le domaine de l’apprentissage profond et de la vision par ordinateur au MIT-IBM Watson AI Lab.

Vidéo de modélisation

En collaboration avec des chercheurs du milieu universitaire et de l’industrie, Kim a conçu, formé et testé un modèle d’apprentissage en profondeur pour reconnaître les actions dans tous les domaines, dans ce cas, la vidéo. Son équipe a spécifiquement ciblé l’utilisation de données synthétiques à partir de vidéos générées pour la formation et a exécuté des tâches de prédiction et d’inférence sur des données réelles, composées de différentes classes d’action. Ils voulaient voir comment les modèles de pré-formation sur des vidéos synthétiques, en particulier des simulations ou des actions humaines ou humanoïdes générées par un moteur de jeu, se superposaient à des données réelles : des vidéos accessibles au public récupérées sur Internet.

La raison de cette recherche, dit Kim, est que les vraies vidéos peuvent avoir des problèmes, y compris le biais de représentation, le droit d’auteur et/ou la sensibilité éthique ou personnelle, par exemple, les vidéos d’une voiture heurtant des gens seraient difficiles à collecter, ou l’utilisation de personnes visages, adresses réelles ou plaques d’immatriculation sans consentement. Kim mène des expériences avec des modèles vidéo 2D, 2,5D et 3D, dans le but de créer un ensemble de données vidéo synthétiques spécifiques à un domaine ou même un grand ensemble de données générales pouvant être utilisé pour certains domaines de transfert, où les données manquent. Par exemple, pour les applications à l’industrie de la construction, cela pourrait inclure l’exécution de sa reconnaissance d’action sur un chantier de construction. Je ne m’attendais pas à ce que les vidéos générées synthétiquement fonctionnent à égalité avec les vraies vidéos, dit-il. Je pense que cela ouvre beaucoup de rôles différents [for the work] à l’avenir.

Malgré un début difficile du projet de collecte et de génération de données et d’exécution de nombreux modèles, Kim dit qu’il ne l’aurait pas fait autrement. C’était incroyable de voir comment les membres du laboratoire m’ont encouragé : c’est OK. Vous aurez toutes les expériences et la partie amusante à venir. Ne stresse pas trop. C’est cette structure qui a aidé Kim à s’approprier le travail. À la fin, ils m’ont donné tellement de soutien et d’idées incroyables qui m’ont aidé à mener à bien ce projet.

Étiquetage des données

La rareté des données était également un thème du travail d’Emma Lius. Le problème primordial est qu’il existe toutes ces données dans le monde, et pour de nombreux problèmes d’apprentissage automatique, vous avez besoin que ces données soient étiquetées, dit Liu, mais vous avez alors toutes ces données non étiquetées qui sont disponibles et que vous n’êtes pas vraiment tirer parti.

Liu, sous la direction de son groupe MIT et IBM, a travaillé pour mettre ces données à profit, en formant des modèles semi-supervisés de classification de texte (et en combinant des aspects de ceux-ci) pour ajouter des pseudo-étiquettes aux données non étiquetées, sur la base de prédictions et de probabilités sur quelles catégories chaque élément de données précédemment non étiqueté s’intègre dans. Ensuite, le problème est qu’il y a eu des travaux antérieurs qui ont montré que vous ne pouvez pas toujours faire confiance aux probabilités ; plus précisément, les réseaux de neurones se sont souvent révélés trop confiants, souligne Liu.

Liu et son équipe ont résolu ce problème en évaluant la précision et l’incertitude des modèles et en les recalibrant pour améliorer son cadre d’auto-formation. L’étape d’autoformation et de calibration lui a permis d’avoir une meilleure confiance dans les prédictions. Ces données pseudo-étiquetées, dit-elle, pourraient ensuite être ajoutées au pool de données réelles, élargissant ainsi l’ensemble de données ; ce processus pourrait être répété dans une série d’itérations.

Pour Liu, ce qu’elle retenait le plus n’était pas le produit, mais le processus. J’ai beaucoup appris sur le métier de chercheuse indépendante, dit-elle. En tant qu’étudiante de premier cycle, Liu a travaillé avec IBM pour développer des méthodes d’apprentissage automatique pour réutiliser des médicaments déjà sur le marché et a perfectionné sa capacité de prise de décision. Après avoir collaboré avec des chercheurs universitaires et industriels pour acquérir des compétences pour poser des questions pointues, rechercher des experts, digérer et présenter des articles scientifiques pour un contenu pertinent et tester des idées, Liu et sa cohorte d’étudiants MEng travaillant avec le MIT-IBM Watson AI Lab ont estimé qu’ils avaient confiance en leurs connaissances, leur liberté et leur flexibilité pour dicter leur propre direction de recherche. En assumant ce rôle clé, dit Liu, j’ai l’impression d’avoir la propriété de mon projet.

Prévision de la demande

Après son passage au MIT et au MIT-IBM Watson AI Lab, Clemente Ocejo est également reparti avec un sens de la maîtrise, ayant construit une base solide dans les techniques d’IA et les méthodes de séries chronologiques en commençant par son MIT Undergraduate Research Opportunities Program (UROP), où il a rencontré son conseiller MEng. Il faut vraiment être proactif dans la prise de décision, dit Ocejo, le vocalisant [your choices] en tant que chercheur et faire savoir aux gens que c’est ce que vous faites.

Ocejo a utilisé son expérience dans les méthodes traditionnelles de séries chronologiques pour une collaboration avec le laboratoire, appliquant un apprentissage en profondeur pour mieux prédire la prévision de la demande de produits dans le domaine médical. Ici, il a conçu, écrit et formé un transformateur, un modèle d’apprentissage automatique spécifique, qui est généralement utilisé dans le traitement du langage naturel et a la capacité d’apprendre des dépendances à très long terme. Ocejo et son équipe ont comparé les demandes prévisionnelles cibles entre les mois, en apprenant des connexions dynamiques et des pondérations d’attention entre les ventes de produits au sein d’une famille de produits. Ils ont examiné les caractéristiques de l’identifiant, concernant le prix et le montant, ainsi que les caractéristiques du compte indiquant qui achète les articles ou les services.

Un produit n’impacte pas nécessairement la prédiction faite pour un autre produit au moment de la prédiction. Cela a simplement un impact sur les paramètres pendant l’entraînement qui mènent à cette prédiction, dit Ocejo. Au lieu de cela, nous voulions lui donner un impact un peu plus direct, nous avons donc ajouté cette couche qui établit cette connexion et apprend l’attention entre tous les produits de notre ensemble de données.

À long terme, sur une prévision d’un an, le groupe MIT-IBM Watson AI Lab a été en mesure de surpasser le modèle actuel ; plus impressionnant encore, il l’a fait à court terme (près d’un trimestre fiscal). Ocejo attribue cela à la dynamique de son équipe interdisciplinaire. Beaucoup de personnes de mon groupe n’étaient pas nécessairement très expérimentées dans l’aspect apprentissage en profondeur des choses, mais elles avaient beaucoup d’expérience dans la gestion de la chaîne d’approvisionnement, la recherche opérationnelle et l’optimisation, ce que je n’ai pas autant d’expérience, dit Ocejo. Ils donnaient beaucoup de bons commentaires de haut niveau sur ce qu’il fallait aborder ensuite et savaient ce que le domaine de l’industrie voulait voir ou cherchait à améliorer, donc cela m’a été très utile pour rationaliser mon objectif.

Pour ce travail, ce n’est pas un déluge de données qui a fait la différence pour Ocejo et son équipe, mais plutôt sa structure et sa présentation. Souvent, les grands modèles d’apprentissage en profondeur nécessitent des millions et des millions de points de données afin de faire des inférences significatives ; cependant, le groupe MIT-IBM Watson AI Lab a démontré que les résultats et les améliorations techniques peuvent être spécifiques à l’application. Cela montre simplement que ces modèles peuvent apprendre quelque chose d’utile, dans le bon cadre, avec la bonne architecture, sans avoir besoin d’une quantité excessive de données, explique Ocejo. Et puis avec une quantité excessive de données, ça ne fera que s’améliorer.

www.actusduweb.com

Suivez Actusduweb sur Google News

Similaire