L’utilisation bâclée de l’apprentissage automatique provoque une crise de reproductibilité en science
Kapoor et Narayanan ont organisé un atelier à la fin du mois dernier pour attirer l’attention sur ce qu’ils appellent une crise de reproductibilité dans la science qui utilise l’apprentissage automatique. Ils espéraient une trentaine de participants, mais ont reçu des inscriptions de plus de 1 500 personnes, une surprise qui, selon eux, suggère que les problèmes d’apprentissage automatique en science sont répandus.
Au cours de l’événement, des conférenciers invités ont raconté de nombreux exemples de situations où l’IA avait été mal utilisée, dans des domaines tels que la médecine et les sciences sociales. Michael Roberts, associé de recherche principal à l’Université de Cambridge, a discuté des problèmes avec des dizaines d’articles prétendant utiliser l’apprentissage automatique pour lutter contre Covid-19, y compris des cas où les données étaient faussées parce qu’elles provenaient d’une variété de machines d’imagerie différentes. Jessica Hullman, professeure agrégée à la Northwestern University, a comparé les problèmes des études utilisant l’apprentissage automatique au phénomène de résultats majeurs en psychologie qui s’avèrent impossibles à reproduire. Dans les deux cas, dit Hullman, les chercheurs ont tendance à utiliser trop peu de données et à mal interpréter la signification statistique des résultats.
Momin Malik, spécialiste des données à la clinique Mayo, a été invité à parler de son propre travail sur les utilisations problématiques de l’apprentissage automatique en science. Outre les erreurs courantes dans la mise en œuvre de la technique, dit-il, les chercheurs appliquent parfois l’apprentissage automatique lorsque ce n’est pas le bon outil pour le travail.
Malik cite un exemple frappant d’apprentissage automatique produisant des résultats trompeurs : Google Flu Trends, un outil développé par la société de recherche en 2008 qui visait à utiliser l’apprentissage automatique pour identifier plus rapidement les épidémies de grippe à partir des journaux de requêtes de recherche tapées par les internautes. Google a obtenu une publicité positive pour le projet, mais il a échoué de manière spectaculaire à prédire le cours de la saison grippale 2013. Une étude indépendante conclurait plus tard que le modèle s’était accroché à des termes saisonniers qui n’ont rien à voir avec la prévalence de la grippe. Vous ne pouvez pas tout jeter dans un grand modèle d’apprentissage automatique et voir ce qui en ressort, dit Malik.
Certains participants à l’atelier disent qu’il n’est peut-être pas possible pour tous les scientifiques de devenir des maîtres en apprentissage automatique, en particulier compte tenu de la complexité de certains des problèmes mis en évidence. Amy Winecoff, scientifique des données au Princetons Center for Information Technology Policy, déclare que s’il est important pour les scientifiques d’apprendre de bons principes d’ingénierie logicielle, de maîtriser les techniques statistiques et de consacrer du temps à la maintenance des ensembles de données, cela ne devrait pas se faire au détriment de la connaissance du domaine. . Nous ne voulons pas, par exemple, que les chercheurs sur la schizophrénie en sachent beaucoup sur le génie logiciel, dit-elle, mais peu sur les causes du trouble. Winecoff suggère qu’une plus grande collaboration entre les scientifiques et les informaticiens pourrait aider à trouver le bon équilibre.
Bien que l’utilisation abusive de l’apprentissage automatique en science soit un problème en soi, elle peut également être considérée comme un indicateur que des problèmes similaires sont probablement courants dans les projets d’IA d’entreprise ou gouvernementaux qui sont moins ouverts à un examen extérieur.
Malik dit qu’il est le plus préoccupé par la perspective d’algorithmes d’IA mal appliqués entraînant des conséquences réelles, telles que refuser injustement à quelqu’un des soins médicaux ou déconseiller injustement la libération conditionnelle. La leçon générale est qu’il n’est pas approprié de tout aborder avec l’apprentissage automatique, dit-il. Malgré la rhétorique, le battage médiatique, les succès et les espoirs, c’est une approche limitée.
Kapoor de Princeton dit qu’il est vital que les communautés scientifiques commencent à réfléchir à la question. La science basée sur l’apprentissage automatique en est encore à ses balbutiements, dit-il. Mais c’est urgent, cela peut avoir des conséquences très néfastes à long terme.