Injecter de l’équité dans les modèles d’apprentissage automatique
Si un modèle d’apprentissage automatique est formé à l’aide d’un ensemble de données déséquilibré, tel qu’un modèle contenant beaucoup plus d’images de personnes à la peau plus claire que de personnes à la peau plus foncée, il existe un risque sérieux que les prédictions du modèle soient injustes lorsqu’il est déployé dans le monde réel. .
Mais ce n’est qu’une partie du problème. Les chercheurs du MIT ont découvert que les modèles d’apprentissage automatique qui sont populaires pour les tâches de reconnaissance d’images codent en fait les biais lorsqu’ils sont entraînés sur des données déséquilibrées. Ce biais au sein du modèle est impossible à corriger ultérieurement, même avec des techniques de pointe améliorant l’équité, et même lors du recyclage du modèle avec un ensemble de données équilibré.
Ainsi, les chercheurs ont proposé une technique pour introduire l’équité directement dans la représentation interne des modèles elle-même. Cela permet au modèle de produire des résultats équitables même s’il est formé sur des données injustes, ce qui est particulièrement important car il existe très peu d’ensembles de données bien équilibrés pour l’apprentissage automatique.
La solution qu’ils ont développée conduit non seulement à des modèles qui font des prédictions plus équilibrées, mais améliore également leurs performances sur des tâches en aval telles que la reconnaissance faciale et la classification des espèces animales.
Dans l’apprentissage automatique, il est courant de blâmer les données pour les biais des modèles. Mais nous n’avons pas toujours des données équilibrées. Nous devons donc trouver des méthodes qui résolvent réellement le problème des données déséquilibrées, déclare l’auteur principal Natalie Dullerud, étudiante diplômée du groupe Healthy ML du laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT.
Les co-auteurs de Dulleruds incluent Kimia Hamidieh, étudiante diplômée du groupe Healthy ML ; Karsten Roth, un ancien chercheur invité qui est maintenant étudiant diplômé à l’Université de Tubingen ; Nicolas Papernot, professeur adjoint au Département de génie électrique et d’informatique de l’Université de Toronto; et l’auteur principal Marzyeh Ghassemi, professeur adjoint et chef du groupe Healthy ML. La recherche sera présentée à la Conférence internationale sur les représentations de l’apprentissage.
Définir l’équité
La technique d’apprentissage automatique étudiée par les chercheurs est connue sous le nom d’apprentissage métrique profond, qui est une forme large d’apprentissage par représentation. Dans l’apprentissage métrique profond, un réseau de neurones apprend la similitude entre des objets en cartographiant des photos similaires proches les unes des autres et des photos dissemblables éloignées. Pendant l’entraînement, ce réseau de neurones cartographie les images dans un espace d’intégration où une métrique de similarité entre les photos correspond à la distance qui les sépare.
Par exemple, si un modèle d’apprentissage métrique profond est utilisé pour classer les espèces d’oiseaux, il cartographiera des photos de pinsons dorés ensemble dans une partie de l’espace d’intégration et des cardinaux ensemble dans une autre partie de l’espace d’intégration. Une fois formé, le modèle peut mesurer efficacement la similarité de nouvelles images qu’il n’a jamais vues auparavant. Il apprendrait à regrouper les images d’une espèce d’oiseau invisible proches les unes des autres, mais plus éloignées des cardinaux ou des pinsons dorés dans l’espace d’encastrement.
Les métriques de similarité apprises par le modèle sont très robustes, c’est pourquoi l’apprentissage métrique profond est si souvent utilisé pour la reconnaissance faciale, explique Dullerud. Mais elle et ses collègues se sont demandé comment déterminer si une métrique de similarité est biaisée.
Nous savons que les données reflètent les préjugés des processus dans la société. Cela signifie que nous devons nous concentrer sur la conception de méthodes mieux adaptées à la réalité, déclare Ghassemi.
Les chercheurs ont défini deux façons dont une métrique de similarité peut être injuste. En utilisant l’exemple de la reconnaissance faciale, la métrique sera injuste si elle est plus susceptible d’intégrer des personnes à la peau plus foncée plus proches les unes des autres, même s’il ne s’agit pas de la même personne, que si ces images étaient des personnes à la peau plus claire. visages écorchés. Deuxièmement, il sera injuste que les caractéristiques qu’il apprend pour mesurer la similarité soient meilleures pour le groupe majoritaire que pour le groupe minoritaire.
Les chercheurs ont mené un certain nombre d’expériences sur des modèles avec des métriques de similarité injustes et n’ont pas été en mesure de surmonter le biais que le modèle avait appris dans son espace d’intégration.
C’est assez effrayant car c’est une pratique très courante pour les entreprises de publier ces modèles d’intégration, puis les gens les affinent pour une tâche de classification en aval. Mais peu importe ce que vous faites en aval, vous ne pouvez tout simplement pas résoudre les problèmes d’équité qui ont été induits dans l’espace d’intégration, dit Dullerud.
Même si un utilisateur recycle le modèle sur un ensemble de données équilibré pour la tâche en aval, ce qui est le meilleur scénario pour résoudre le problème d’équité, il existe toujours des écarts de performances d’au moins 20 %, dit-elle.
La seule façon de résoudre ce problème est de s’assurer que l’espace d’intégration est juste pour commencer.
Apprendre des métriques distinctes
La solution des chercheurs, appelée Partial Attribute Decorrelation (PARADE), consiste à entraîner le modèle à apprendre une métrique de similarité distincte pour un attribut sensible, comme le teint de la peau, puis à décorréler la métrique de similarité du teint de la peau à partir de la métrique de similarité ciblée. Si le modèle apprend les métriques de similarité de différents visages humains, il apprendra à cartographier des visages similaires proches les uns des autres et des visages dissemblables éloignés en utilisant des caractéristiques autres que le teint de la peau.
N’importe quel nombre d’attributs sensibles peut être décorrélé de la métrique de similarité ciblée de cette manière. Et comme la métrique de similarité pour l’attribut sensible est apprise dans un espace d’intégration séparé, elle est supprimée après la formation, de sorte que seule la métrique de similarité ciblée reste dans le modèle.
Leur méthode est applicable à de nombreuses situations car l’utilisateur peut contrôler la quantité de décorrélation entre les métriques de similarité. Par exemple, si le modèle diagnostiquera le cancer du sein à partir d’images de mammographie, un clinicien souhaite probablement que certaines informations sur le sexe biologique restent dans l’espace d’intégration final, car il est beaucoup plus probable que les femmes aient un cancer du sein que les hommes, explique Dullerud.
Ils ont testé leur méthode sur deux tâches, la reconnaissance faciale et la classification des espèces d’oiseaux, et ont constaté qu’elle réduisait les écarts de performance causés par les biais, à la fois dans l’espace d’intégration et dans la tâche en aval, quel que soit l’ensemble de données utilisé.
À l’avenir, Dullerud souhaite étudier comment forcer un modèle d’apprentissage métrique profond à apprendre de bonnes fonctionnalités en premier lieu.
Comment vérifier correctement l’équité ? C’est une question ouverte en ce moment. Comment pouvez-vous dire qu’un modèle va être juste, ou qu’il ne va être juste que dans certaines situations, et quelles sont ces situations ? Ce sont des questions qui m’intéressent vraiment pour aller de l’avant, dit-elle.