Déballer la boîte noire pour construire de meilleurs modèles d’IA

Lorsque des modèles d’apprentissage en profondeur sont déployés dans le monde réel, peut-être pour détecter la fraude financière liée à l’activité des cartes de crédit ou pour identifier le cancer dans les images médicales, ils sont souvent capables de surpasser les humains.

Mais qu’apprennent exactement ces modèles d’apprentissage en profondeur ? Un modèle formé pour repérer le cancer de la peau sur des images cliniques, par exemple, apprend-il réellement les couleurs et les textures des tissus cancéreux, ou signale-t-il d’autres caractéristiques ou modèles ?

Ces puissants modèles d’apprentissage automatique sont généralement basés sur des réseaux de neurones artificiels qui peuvent avoir des millions de nœuds qui traitent les données pour faire des prédictions. En raison de leur complexité, les chercheurs appellent souvent ces modèles des boîtes noires car même les scientifiques qui les construisent ne comprennent pas tout ce qui se passe sous le capot.

Stefanie Jegelka n’est pas satisfaite de cette explication de la boîte noire. Professeur agrégé nouvellement titulaire au département de génie électrique et d’informatique du MIT, Jegelka approfondit l’apprentissage en profondeur pour comprendre ce que ces modèles peuvent apprendre et comment ils se comportent, et comment intégrer certaines informations préalables dans ces modèles.

En fin de compte, ce qu’un modèle d’apprentissage en profondeur apprendra dépend de nombreux facteurs. Mais construire une compréhension pertinente dans la pratique nous aidera à concevoir de meilleurs modèles et nous aidera également à comprendre ce qui se passe à l’intérieur afin que nous sachions quand nous pouvons déployer un modèle et quand nous ne pouvons pas. C’est extrêmement important, déclare Jegelka, qui est également membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et de l’Institut des données, des systèmes et de la société (IDSS).

Jegelka s’intéresse particulièrement à l’optimisation des modèles d’apprentissage automatique lorsque les données d’entrée se présentent sous la forme de graphiques. Les données de graphe posent des défis spécifiques : par exemple, les informations contenues dans les données comprennent à la fois des informations sur les nœuds et les arêtes individuels, ainsi que la structure de ce qui est connecté à quoi. De plus, les graphes ont des symétries mathématiques qui doivent être respectées par le modèle d’apprentissage automatique afin que, par exemple, le même graphe conduise toujours à la même prédiction. Construire de telles symétries dans un modèle d’apprentissage automatique n’est généralement pas facile.

Prenez les molécules, par exemple. Les molécules peuvent être représentées sous forme de graphes, avec des sommets qui correspondent à des atomes et des arêtes qui correspondent à des liaisons chimiques entre eux. Les sociétés pharmaceutiques peuvent souhaiter utiliser l’apprentissage en profondeur pour prédire rapidement les propriétés de nombreuses molécules, en réduisant le nombre qu’elles doivent tester physiquement en laboratoire.

Jegelka étudie des méthodes pour construire des modèles mathématiques d’apprentissage automatique qui peuvent effectivement prendre des données graphiques comme entrée et produire autre chose, dans ce cas une prédiction des propriétés chimiques d’une molécule. Ceci est particulièrement difficile car les propriétés d’une molécule sont déterminées non seulement par les atomes qu’elle contient, mais également par les connexions entre eux.

D’autres exemples d’apprentissage automatique sur les graphiques incluent le routage du trafic, la conception de puces et les systèmes de recommandation.

La conception de ces modèles est rendue encore plus difficile par le fait que les données utilisées pour les former sont souvent différentes des données que les modèles voient en pratique. Le modèle a peut-être été formé à l’aide de petits graphes moléculaires ou de réseaux de trafic, mais les graphes qu’il voit une fois déployés sont plus grands ou plus complexes.

Dans ce cas, qu’est-ce que les chercheurs peuvent s’attendre à ce que ce modèle apprenne, et fonctionnera-t-il toujours dans la pratique si les données du monde réel sont différentes ?

Votre modèle ne pourra pas tout apprendre à cause de certains problèmes de dureté en informatique, mais ce que vous pouvez apprendre et ce que vous ne pouvez pas apprendre dépend de la façon dont vous configurez le modèle, dit Jegelka.

Elle aborde cette question en combinant sa passion pour les algorithmes et les mathématiques discrètes avec son enthousiasme pour l’apprentissage automatique.

Des papillons à la bioinformatique

Jegelka a grandi dans une petite ville d’Allemagne et s’est intéressée aux sciences lorsqu’elle était lycéenne. un enseignant qui l’a soutenue l’a encouragée à participer à un concours scientifique international. Elle et ses coéquipiers des États-Unis et de Hong Kong ont remporté un prix pour un site Web qu’ils ont créé sur les papillons, en trois langues.

Pour notre projet, nous avons pris des images d’ailes avec un microscope électronique à balayage dans une université locale des sciences appliquées. J’ai également eu l’occasion d’utiliser une caméra à grande vitesse chez Mercedes Benz cette caméra filmait généralement des moteurs à combustion que j’utilisais pour capturer une vidéo au ralenti du mouvement des ailes d’un papillon. C’était la première fois que j’entrais vraiment en contact avec la science et l’exploration, se souvient-elle.

Intrigué à la fois par la biologie et les mathématiques, Jegelka a décidé d’étudier la bioinformatique à l’Université de Tbingen et à l’Université du Texas à Austin. Elle a eu quelques opportunités de mener des recherches en tant qu’étudiante de premier cycle, y compris un stage en neurosciences computationnelles à l’Université de Georgetown, mais n’était pas sûre de la carrière à suivre.

À son retour pour sa dernière année d’université, Jegelka a emménagé avec deux colocataires qui travaillaient comme assistants de recherche à l’Institut Max Planck de Tbingen.

Ils travaillaient sur l’apprentissage automatique, et cela me semblait vraiment cool. Je devais rédiger mon mémoire de licence, alors j’ai demandé à l’institut s’ils avaient un projet pour moi. J’ai commencé à travailler sur l’apprentissage automatique à l’Institut Max Planck et j’ai adoré ça. J’ai tellement appris là-bas, et c’était un endroit formidable pour la recherche, dit-elle.

Elle est restée à l’Institut Max Planck pour réaliser une thèse de maîtrise, puis s’est lancée dans un doctorat en apprentissage automatique à l’Institut Max Planck et à l’EPF.

Au cours de son doctorat, elle a exploré comment les concepts des mathématiques discrètes peuvent aider à améliorer les techniques d’apprentissage automatique.

Enseigner des modèles pour apprendre

Plus Jegelka en apprenait sur l’apprentissage automatique, plus elle devenait intriguée par les défis de comprendre comment les modèles se comportent et comment orienter ce comportement.

Vous pouvez faire beaucoup de choses avec l’apprentissage automatique, mais seulement si vous disposez du bon modèle et des bonnes données. Ce n’est pas seulement une boîte noire où vous le lancez sur les données et cela fonctionne. Vous devez en fait y penser, ses propriétés et ce que vous voulez que le modèle apprenne et fasse, dit-elle.

Après avoir terminé un postdoctorat à l’Université de Californie à Berkeley, Jegelka est devenu accro à la recherche et a décidé de poursuivre une carrière dans le milieu universitaire. Elle a rejoint la faculté du MIT en 2015 en tant que professeure adjointe.

Ce que j’ai vraiment aimé au MIT, dès le début, c’est que les gens se soucient vraiment de la recherche et de la créativité. C’est ce que j’apprécie le plus au MIT. Les gens ici apprécient vraiment l’originalité et la profondeur de la recherche, dit-elle.

Cet accent mis sur la créativité a permis à Jegelka d’explorer un large éventail de sujets.

En collaboration avec d’autres professeurs du MIT, elle étudie les applications d’apprentissage automatique en biologie, en imagerie, en vision par ordinateur et en science des matériaux.

Mais ce qui motive vraiment Jegelka, c’est de sonder les principes fondamentaux de l’apprentissage automatique et, plus récemment, la question de la robustesse. Souvent, un modèle fonctionne bien sur des données d’apprentissage, mais ses performances se détériorent lorsqu’il est déployé sur des données légèrement différentes. Construire des connaissances antérieures dans un modèle peut le rendre plus fiable, mais comprendre de quelles informations le modèle a besoin pour réussir et comment les intégrer n’est pas si simple, dit-elle.

Elle explore également des méthodes pour améliorer les performances des modèles d’apprentissage automatique pour la classification des images.

Les modèles de classification d’images sont partout, des systèmes de reconnaissance faciale sur les téléphones mobiles aux outils qui identifient les faux comptes sur les réseaux sociaux. Ces modèles ont besoin d’énormes quantités de données pour la formation, mais comme il est coûteux pour les humains d’étiqueter à la main des millions d’images, les chercheurs utilisent souvent des ensembles de données non étiquetés pour pré-entraîner les modèles à la place.

Ces modèles réutilisent ensuite les représentations qu’ils ont apprises lorsqu’ils sont affinés ultérieurement pour une tâche spécifique.

Idéalement, les chercheurs veulent que le modèle en apprenne autant qu’il le peut pendant la pré-formation, afin qu’il puisse appliquer ces connaissances à sa tâche en aval. Mais en pratique, ces modèles n’apprennent souvent que quelques corrélations simples comme une image a du soleil et une autre a de l’ombre et utilisent ces raccourcis pour classer les images.

Nous avons montré qu’il s’agit d’un problème dans l’apprentissage contrastif, qui est une technique standard de pré-formation, à la fois théoriquement et empiriquement. Mais nous montrons également que vous pouvez influencer les types d’informations que le modèle apprendra à représenter en modifiant les types de données que vous affichez le modèle. C’est une étape vers la compréhension de ce que les modèles vont réellement faire dans la pratique, dit-elle.

Les chercheurs ne comprennent toujours pas tout ce qui se passe à l’intérieur d’un modèle d’apprentissage en profondeur, ni les détails sur la façon dont ils peuvent influencer ce qu’un modèle apprend et comment il se comporte, mais Jegelka a hâte de continuer à explorer ces sujets.

Souvent, dans l’apprentissage automatique, nous voyons quelque chose se produire dans la pratique et nous essayons de le comprendre théoriquement. C’est un énorme défi. Vous voulez construire une compréhension qui correspond à ce que vous voyez dans la pratique, afin que vous puissiez faire mieux. Nous n’en sommes encore qu’au début de la compréhension, dit-elle.

En dehors du laboratoire, Jegelka est fan de musique, d’art, de voyages et de cyclisme. Mais ces jours-ci, elle aime passer la plupart de son temps libre avec sa fille d’âge préscolaire.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite