Un cartel d’ensembles de données influents domine la recherche sur l’apprentissage automatique, selon une nouvelle étude
Un nouvel article de l’Université de Californie et de Google Research a révélé qu’un petit nombre d’ensembles de données d’apprentissage machine « de référence », provenant en grande partie d’institutions occidentales influentes et souvent d’organisations gouvernementales, dominent de plus en plus le secteur de la recherche en IA.
Les chercheurs concluent que cette tendance à « par défaut » vers des ensembles de données open source très populaires, tels que ImageNet, soulève un certain nombre de motifs de préoccupation pratiques, éthiques et même politiques.
Parmi leurs conclusions basées sur les données de base du projet communautaire dirigé par Facebook Documents avec code (PWC), les auteurs soutiennent que « les ensembles de données largement utilisés ne sont introduits que par une poignée d’institutions d’élite », et que cette « consolidation » est passée à 80 % ces dernières années.
‘[We] constatent qu’il existe une inégalité croissante dans l’utilisation des ensembles de données à l’échelle mondiale, et que plus de 50 % de toutes les utilisations des ensembles de données dans notre échantillon de 43 140 correspondent à des ensembles de données introduits par douze institutions d’élite, principalement occidentales. »

Une carte des utilisations des ensembles de données non spécifiques à une tâche au cours des dix dernières années. Les critères d’inclusion sont lorsque l’institution ou l’entreprise représente plus de 50 % des usages connus. À droite, le coefficient de Gini pour la concentration des ensembles de données au fil du temps pour les institutions et les ensembles de données. Source : https://arxiv.org/pdf/2112.01716.pdf
Les institutions dominantes sont l’Université de Stanford, Microsoft, Princeton, Facebook, Google, le Max Planck Institute et AT&T. Quatre des dix principales sources de données sont des entreprises.
L’article caractérise également l’utilisation croissante de ces ensembles de données d’élite comme « un vecteur d’inégalité dans la science ». En effet, les équipes de recherche cherchant l’approbation de la communauté sont plus motivées pour obtenir des résultats de pointe (SOTA) par rapport à un ensemble de données cohérent qu’elles ne le sont pour générer des ensembles de données originaux qui n’ont pas une telle réputation et qui exigeraient que les pairs s’adaptent à de nouveaux métriques au lieu d’indices standard.
Dans tous les cas, comme le reconnaît l’article, créer son propre ensemble de données est une quête d’un coût prohibitif pour des institutions et des équipes moins bien dotées en ressources.
‘Le à première vue La validité scientifique accordée par l’analyse comparative SOTA est généralement confondue avec la crédibilité sociale que les chercheurs obtiennent en montrant qu’ils peuvent rivaliser sur un ensemble de données largement reconnu, même si une référence plus spécifique au contexte pourrait être techniquement plus appropriée.
«Nous postulons que cette dynamique crée un effet Matthew (c’est-à-dire que les riches s’enrichissent et les pauvres s’appauvrissent) où les références réussies et les institutions d’élite qui les introduisent acquièrent une stature démesurée dans le domaine.
le papier est intitulé Réduit, réutilisé et recyclé : la vie d’un ensemble de données dans la recherche en apprentissage automatique, et vient de Bernard Koch et Jacob G. Foster à UCLA, et Emily Denton et Alex Hanna à Google Research.
L’ouvrage soulève un certain nombre de problèmes avec la tendance croissante à la consolidation qu’il documente, et a rencontré des approbation générale à l’examen ouvert. Un critique de NeurIPS 2021 a commenté que le travail est « extrêmement pertinent pour toute personne impliquée dans la recherche en apprentissage automatique ». et prévoyait son inclusion comme lecture assignée dans les cours universitaires.
De la nécessité à la corruption
Les auteurs notent que la culture actuelle de « battre la référence » est apparue comme un remède au manque d’outils d’évaluation objectifs qui a fait s’effondrer l’intérêt et l’investissement dans l’IA il y a plus de trente ans, après le déclin de l’enthousiasme des entreprises envers nouvelle recherche en « Systèmes experts » :
« Les repères formalisent généralement une tâche particulière au moyen d’un ensemble de données et d’une métrique quantitative d’évaluation associée. La pratique a été introduite à l’origine pour [machine learning research] après « l’hiver de l’IA » des années 1980 par les bailleurs de fonds gouvernementaux, qui cherchaient à évaluer plus précisément la valeur reçue sur les subventions.’
L’article soutient que les avantages initiaux de cette culture informelle de normalisation (réduction des obstacles à la participation, métriques cohérentes et opportunités de développement plus agiles) commencent à être compensés par les inconvénients qui surviennent naturellement lorsqu’un ensemble de données devient suffisamment puissant pour définir efficacement son « conditions d’utilisation » et l’étendue de l’influence.
Les auteurs suggèrent, conformément à la plupart des réflexions récentes de l’industrie et des universitaires sur le sujet, que la communauté des chercheurs ne pose plus de problèmes nouveaux si ceux-ci ne peuvent pas être résolus par les ensembles de données de référence existants.
Ils notent en outre que l’adhésion aveugle à ce petit nombre d’ensembles de données « d’or » encourage les chercheurs à obtenir des résultats suréquipés (c’est-à-dire spécifiques à un ensemble de données et peu susceptibles de fonctionner aussi bien sur des données du monde réel, sur de nouvelles données académiques ou originales). ensembles de données, ou même nécessairement sur des ensembles de données différents dans le « gold standard »).
« Compte tenu de la forte concentration observée de la recherche sur un petit nombre d’ensembles de données de référence, nous pensons qu’il est particulièrement important de diversifier les formes d’évaluation pour éviter de suradapter les ensembles de données existants et de déformer les progrès dans le domaine. »
Influence du gouvernement dans la recherche en vision par ordinateur
Selon l’article, la recherche sur la vision par ordinateur est nettement plus touchée par le syndrome qu’elle décrit que d’autres secteurs, les auteurs notant que la recherche sur le traitement du langage naturel (NLP) est beaucoup moins affectée. Les auteurs suggèrent que cela pourrait être dû au fait que les communautés de la PNL sont ‘plus cohérent’ et de plus grande taille, et parce que les ensembles de données NLP sont plus accessibles et plus faciles à gérer, tout en étant plus petits et moins gourmands en ressources en termes de collecte de données.
Dans Computer Vision, et en particulier en ce qui concerne les ensembles de données de reconnaissance faciale (FR), les auteurs soutiennent que les intérêts des entreprises, de l’État et du privé se heurtent souvent :
« Les entreprises et les institutions gouvernementales ont des objectifs qui peuvent entrer en conflit avec la vie privée (par exemple, la surveillance), et leur pondération de ces priorités est susceptible d’être différente de celle des universitaires ou des parties prenantes sociétales plus larges des IA. »
Pour les tâches de reconnaissance faciale, les chercheurs ont constaté que l’incidence des ensembles de données purement académiques chute considérablement par rapport à la moyenne :
‘[Four] des huit ensembles de données (33,69 % des utilisations totales) ont été exclusivement financés par des entreprises, l’armée américaine ou le gouvernement chinois (MS-Celeb-1M, CASIA-Webface, IJB-A, VggFace2). MS-Celeb-1M a finalement été retiré en raison de la controverse entourant la valeur de la vie privée pour les différentes parties prenantes.’

Les principaux ensembles de données utilisés dans les communautés de recherche sur la génération d’images et la reconnaissance faciale.
Dans le graphique ci-dessus, comme le notent les auteurs, nous voyons également que le domaine relativement récent de la génération d’images (ou de la synthèse d’images) dépend fortement d’ensembles de données existants et beaucoup plus anciens qui n’étaient pas destinés à cet usage.
En fait, le document observe une tendance croissante à la « migration » des ensembles de données hors de leur destination, ce qui remet en question leur adéquation aux besoins des secteurs de recherche nouveaux ou périphériques, et la mesure dans laquelle les contraintes budgétaires peuvent « génériser » le l’étendue des ambitions des chercheurs dans le cadre plus étroit fourni à la fois par les matériaux disponibles et par une culture si obsédée par les évaluations de référence d’une année sur l’autre que les nouveaux ensembles de données ont du mal à gagner du terrain.
«Nos résultats indiquent également que les ensembles de données sont régulièrement transférés entre différentes communautés de tâches. À l’extrême, la majorité des ensembles de données de référence en circulation pour certaines communautés de tâches ont été créés pour d’autres tâches.’
En ce qui concerne les sommités de l’apprentissage automatique (y compris Andrew Ng) qui ont de plus en plus appelé à plus de diversité et de conservation des ensembles de données ces dernières années, les auteurs soutiennent le sentiment, mais pensent que ce type d’effort, même s’il est couronné de succès, pourrait potentiellement être compromis par le courant actuel. dépendance de la culture vis-à-vis des résultats SOTA et des ensembles de données établis :
«Notre recherche suggère qu’appeler simplement les chercheurs en ML à développer davantage d’ensembles de données et modifier les structures d’incitation afin que le développement des ensembles de données soit valorisé et récompensé, peut ne pas suffire à diversifier l’utilisation des ensembles de données et les perspectives qui façonnent et définissent finalement les programmes de recherche MLR.
« En plus d’encourager le développement d’ensembles de données, nous préconisons des interventions politiques axées sur l’équité qui accordent la priorité à un financement important pour les personnes dans les institutions les moins riches afin de créer des ensembles de données de haute qualité. Cela diversifierait d’un point de vue social et culturel les ensembles de données de référence utilisés pour évaluer les méthodes modernes de ML.’
6 décembre 2021, 16h49 GMT+2 – Possession corrigée dans le titre. – MA