L’apprentissage automatique pourrait-il alimenter une crise de reproductibilité en science ?

Qu’est-ce que la reproductibilité ?

La définition de Kapoor et Narayanans de la reproductibilité est large. Il indique que d’autres équipes devraient être en mesure de reproduire les résultats d’un modèle, compte tenu de tous les détails sur les données, le code et les conditions souvent appelées reproductibilité informatique, ce qui est déjà une préoccupation pour les scientifiques de l’apprentissage automatique. La paire définit également un modèle comme non reproductible lorsque les chercheurs commettent des erreurs dans l’analyse des données, ce qui signifie que le modèle n’est pas aussi prédictif qu’on le prétend.

Juger de telles erreurs est subjectif et nécessite souvent une connaissance approfondie du domaine dans lequel l’apprentissage automatique est appliqué. Certains chercheurs dont le travail a été critiqué par l’équipe ne sont pas d’accord sur le fait que leurs articles sont défectueux ou disent que les affirmations de Kapoor sont trop fortes. Dans les études sociales, par exemple, les chercheurs ont développé des modèles d’apprentissage automatique qui visent à prédire quand un pays est susceptible de sombrer dans la guerre civile. Kapoor et Narayanan affirment qu’une fois les erreurs corrigées, ces modèles ne fonctionnent pas mieux que les techniques statistiques standard. Mais David Muchlinski, politologue au Georgia Institute of Technology d’Atlanta, dont l’article² a été examiné par le couple, affirme que le domaine de la prédiction des conflits a été injustement décrié et que des études de suivi étayent son travail.

Pourtant, le cri de ralliement des équipes a touché une corde sensible. Plus de 1 200 personnes se sont inscrites à ce qui était initialement un petit atelier en ligne sur la reproductibilité le 28 juillet, organisé par Kapoor et ses collègues, conçu pour trouver et diffuser des solutions. À moins que nous ne fassions quelque chose comme ça, chaque domaine continuera à rencontrer ces problèmes encore et encore, dit-il.

Un excès d’optimisme quant aux pouvoirs des modèles d’apprentissage automatique pourrait s’avérer préjudiciable lorsque des algorithmes sont appliqués dans des domaines tels que la santé et la justice, déclare Momin Malik, scientifique des données à la Mayo Clinic de Rochester, Minnesota, qui doit prendre la parole lors de l’atelier. . À moins que la crise ne soit résolue, la réputation de l’apprentissage automatique pourrait en prendre un coup, dit-il. Je suis quelque peu surpris qu’il n’y ait pas déjà eu d’effondrement de la légitimité de l’apprentissage automatique. Mais je pense que ça pourrait arriver très bientôt.

Problèmes d’apprentissage automatique

Kapoor et Narayanan disent que des pièges similaires se produisent dans l’application de l’apprentissage automatique à plusieurs sciences. La paire a analysé 20 revues dans 17 domaines de recherche et a compté 329 articles de recherche dont les résultats n’ont pas pu être entièrement reproduits en raison de problèmes d’application de l’apprentissage automatique.¹.

Narayanan lui-même n’est pas à l’abri : un article de 2015 sur la sécurité informatique qu’il a co-écrit³ fait partie des 329. C’est vraiment un problème qui doit être traité collectivement par toute cette communauté, dit Kapoor.

Les échecs ne sont la faute d’aucun chercheur individuel, ajoute-t-il. Au lieu de cela, une combinaison de battage médiatique autour de l’IA et de freins et contrepoids inadéquats est à blâmer. Le problème le plus important mis en évidence par Kapoor et Narayanan est la fuite de données, lorsque les informations de l’ensemble de données sur lesquelles un modèle apprend incluent des données sur lesquelles il est ensuite évalué. Si ceux-ci ne sont pas entièrement séparés, le modèle a effectivement déjà vu les réponses, et ses prédictions semblent bien meilleures qu’elles ne le sont réellement. L’équipe a identifié huit principaux types de fuites de données contre lesquelles les chercheurs peuvent être vigilants.

Certaines fuites de données sont subtiles. Par exemple, une fuite temporelle se produit lorsque les données d’apprentissage incluent des points postérieurs à ceux des données de test, ce qui pose problème car l’avenir dépend du passé. À titre d’exemple, Malik cite un article de 2011⁴ qui affirmait qu’un modèle analysant les humeurs des utilisateurs de Twitter pouvait prédire la valeur de clôture des marchés boursiers avec une précision de 87,6 %. Mais parce que l’équipe avait testé la puissance prédictive des modèles en utilisant des données d’une période antérieure à certaines de ses formations, l’algorithme avait effectivement été autorisé à voir l’avenir, dit-il.

Des problèmes plus larges incluent des modèles de formation sur des ensembles de données qui sont plus étroits que la population qu’ils sont finalement censés refléter, explique Malik. Par exemple, une IA qui repère une pneumonie sur des radiographies pulmonaires qui n’ont été formées que sur des personnes âgées pourrait être moins précise sur des personnes plus jeunes. Un autre problème est que les algorithmes finissent souvent par s’appuyer sur des raccourcis qui ne tiennent pas toujours, explique Jessica Hullman, informaticienne à la Northwestern University à Evanston, Illinois, qui prendra la parole lors de l’atelier. Par exemple, un algorithme de vision par ordinateur pourrait apprendre à reconnaître une vache par l’arrière-plan herbeux dans la plupart des images de vache, de sorte qu’il échouerait lorsqu’il rencontrerait une image de l’animal sur une montagne ou une plage.

La grande précision des prédictions dans les tests trompe souvent les gens en leur faisant croire que les modèles captent la véritable structure du problème d’une manière humaine, dit-elle. La situation est similaire à la crise de réplication en psychologie, dans laquelle les gens font trop confiance aux méthodes statistiques, ajoute-t-elle.

Le battage médiatique autour des capacités d’apprentissage automatique a joué un rôle dans le fait que les chercheurs acceptent trop facilement leurs résultats, explique Kapoor. Le mot prédiction lui-même est problématique, dit Malik, car la plupart des prédictions sont en fait testées rétrospectivement et n’ont rien à voir avec la prédiction de l’avenir.

Résoudre les fuites de données

La solution de Kapoor et Narayanans pour lutter contre les fuites de données consiste pour les chercheurs à inclure dans leurs manuscrits des preuves que leurs modèles n’ont pas chacun des huit types de fuites. Les auteurs suggèrent un modèle pour une telle documentation, qu’ils appellent des fiches d’informations modèles.

Au cours des trois dernières années, la biomédecine a parcouru un long chemin avec une approche similaire, explique Xiao Liu, ophtalmologiste clinique à l’Université de Birmingham, au Royaume-Uni, qui a aidé à créer des lignes directrices sur les rapports pour les études impliquant l’IA, par exemple dans le dépistage ou le diagnostic. En 2019, Liu et ses collègues ont découvert que seulement 5 % des plus de 20 000 articles utilisant l’IA pour l’imagerie médicale étaient décrits avec suffisamment de détails pour déterminer s’ils travailleraient dans un environnement clinique.⁵. Les lignes directrices n’améliorent pas directement les modèles de quiconque, mais elles montrent clairement qui sont les personnes qui l’ont bien fait, et peut-être celles qui ne l’ont pas bien fait, dit-elle, ce qui est une ressource dans laquelle les régulateurs peuvent puiser.

La collaboration peut aussi aider, dit Malik. Il suggère que les études impliquent à la fois des spécialistes de la discipline concernée et des chercheurs en apprentissage automatique, en statistiques et en échantillonnage d’enquêtes.

Selon Kapoor, les domaines dans lesquels l’apprentissage automatique trouve des pistes de suivi, tels que la découverte de médicaments, bénéficieront probablement énormément de la technologie. Mais d’autres domaines auront besoin de plus de travail pour montrer que cela sera utile, ajoute-t-il. Bien que l’apprentissage automatique soit encore relativement nouveau dans de nombreux domaines, les chercheurs doivent éviter le type de crise de confiance qui a suivi la crise de réplication en psychologie il y a dix ans, dit-il. Plus nous le retarderons, plus le problème sera important.

www.actusduweb.com

Suivez Actusduweb sur Google News