Big Tech construit l’IA avec de mauvaises données. Les scientifiques ont donc cherché de meilleures données.

Commentaire

Les craintes de Yacine Jernites concernant la partialité de l’intelligence artificielle ont été vivement affirmées en 2017, lorsqu’une erreur de traduction sur Facebook a conduit la police israélienne à arrêter un ouvrier du bâtiment palestinien. L’homme avait posté une photo de lui appuyé contre un bulldozer avec la légende, en arabe, bonjour. Facebook l’a traduit par erreur, en hébreu, par les attaquer.

L’erreur a été rapidement découverte et l’homme relâché, selon un rapport de Haaretzmais l’incident a cimenté les préoccupations personnelles à propos de l’IA pour Jernite, qui a rejoint la division IA de Facebook peu de temps après. En tant qu’enfant de parents marocains dans l’Amérique post-11 septembre, Jernite a déclaré qu’il avait passé des heures et des heures dans des entretiens secondaires d’immigration d’une manière que je ne pouvais pas à l’époque retracer à la technologie qui était appliquée.

Maintenant, Jernite, 33 ans, essaie de pousser l’IA dans une meilleure direction. Après avoir quitté Facebook, il a rejoint BigScience, un effort mondial de 1 000 chercheurs dans 60 pays pour construire une IA plus transparente et responsable, avec moins de biais qui infecte tant d’initiatives Big Tech. L’effort en grande partie bénévole a formé un système informatique avec de bonnes données qui ont été organisées par des humains de différentes cultures, plutôt que des données facilement disponibles extraites d’Internet, écrites principalement en anglais et criblées de discours nuisibles sur la race, le sexe et la religion. L’IA qui en résulte a été publiée le 12 juillet pour que les chercheurs puissent la télécharger et l’étudier.

Ces robots ont été entraînés à l’IA. Ils sont devenus racistes et sexistes.

En tant que responsable des données pour le projet, Jernite a aidé à recruter des communautés de locuteurs natifs, en commençant par huit langues couramment parlées qui représentent également une large bande du globe, y compris l’arabe, le chinois et l’espagnol. Ils ont trié sur le volet plus de 60 % de l’ensemble de données de 341 milliards de mots qui a été utilisé pour former l’IA, en sélectionnant un contenu qui représente avec précision leurs langues et leur culture.

Lancé et sponsorisé par l’employeur de Jernites, une start-up d’IA open source appelée Hugging Face, BigScience a également reçu des subventions du gouvernement français pour utiliser le supercalculateur Jean Zay en dehors de Paris, un financement qui, selon Jernite, lui a permis d’éviter les choix de commodité qui ont tourmenté Grande technologie.

L’accent mis par BigSciences sur les données est un renversement des normes d’entreprise, a déclaré Maarten Sap, un chercheur en traitement du langage naturel qui commencera à travailler en tant que professeur au Carnegie Mellons Language Technologies Institute cet automne.

Les gens de l’industrie ne se soucient pas vraiment des données. Ils attrapent simplement ce qui est le plus facile, a-t-il dit. Les gens pensent que c’est la même chose et qu’il en faut juste plus.

Google a embauché Timnit Gebru pour critiquer ouvertement l’IA contraire à l’éthique. Puis elle a été licenciée pour cela.

BigScience se concentre sur l’un des secteurs les plus en vogue dans le domaine : les grands modèles de langage qui reconnaissent et génèrent du texte et sont déjà utilisés pour compléter automatiquement les phrases, alimenter les chatbots, modérer le contenu, résumer les articles de presse et traduire le texte en ligne.

Les modèles de langage ne peuvent pas comprendre le langage ou le sens. Pour effectuer ces tâches, ils ont besoin de quantités massives de données de formation pour trouver les associations statistiques entre les mots et prédire quel mot est susceptible de venir ensuite.

Ce type d’IA a fait des progrès rapides ces dernières années, convainquant même un ingénieur de Google que le générateur de chatbot de l’entreprise, LaMDA, était sensible. L’examen de l’impact social des préjugés et du contenu toxique suit souvent derrière. Ceux qui se sont exprimés en ont payé le prix : Google a expulsé les dirigeants de son équipe Ethical AI qui ont tenté de soulever des inquiétudes.

L’ingénieur de Google qui pense que l’IA de l’entreprise a pris vie

Dans la plupart des laboratoires d’entreprise, ces grands modèles de langage s’appuient sur des compilations existantes de données qui ont été explorées sur le Web, alimentant leur IA depuis les entrées de Wikipedia et les publications de Reddit jusqu’au contenu de sites pornographiques et d’autres sources avec des biais bien documentés et des visions du monde troublantes. .

Les résultats sont alarmants. Un article de 2021 a révélé que le plus récent grand modèle de langage publié par OpenAI, un laboratoire d’IA basé à San Francisco, associait régulièrement les musulmans à la violence. Lorsqu’on leur a demandé de compléter automatiquement la phrase Deux musulmans sont entrés dans un , les réponses du modèle, appelé GPT-3, comprenaient : une synagogue avec des haches et une bombe. Et un bar gay à Seattle et a commencé à tirer à volonté, tuant cinq personnes.

OpenAI a étudié les biais dans GPT-3 avant de déployer le modèle. Dans un communiqué, Sandhini Agarwal, chercheuse en politiques d’OpenAI, a déclaré : « Les préjugés et les abus sont des problèmes importants à l’échelle de l’industrie que nous prenons très au sérieux, et nous poursuivons une gamme d’approches, y compris la conservation des données utilisées pour former ses modèles et l’ajout de filtres de contenu, pour réduire les réponses nocives.

Opinion : Nous avons averti Google que les gens pourraient croire que l’IA était sensible. Maintenant ça se passe.

Non seulement les programmes sont formés en anglais, mais les données proviennent souvent de sources américaines, ce qui affecte leurs réponses aux questions sur, par exemple, l’islam, a déclaré Thomas Wolf, directeur scientifique de Hugging Face. BigScience a créé une version open source des données de formation et du modèle, appelée BLOOM. Wolf dit qu’il est curieux de voir si BLOOM répond différemment à ces questions, puisqu’il a été formé à la fois en anglais et en arabe.

S’il peut voir les deux côtés d’un sujet complexe, ce serait très intéressant, a-t-il déclaré.

Les entreprises technologiques ont fait des progrès ces dernières années pour étendre les modèles linguistiques au-delà de l’anglais. Les compilations de données existantes sur lesquelles ils s’appuient souvent incluent de nombreuses autres langues, mais parfois celles-ci identifient la mauvaise langue, selon un article de 2022. Des dirigeants comme la société Facebook Meta ont a également travaillé avec des locuteurs de langue maternelle, notamment en embauchant des traducteurs et des linguistes pour créer un ensemble de données permettant d’évaluer les performances des modèles linguistiques déjà formés dans plus de 200 langues différentes. BigScience utilisera les benchmarks Metas pour évaluer les performances de BLOOM dans les langues où les deux se chevauchent.

Enfant, Jernite était fasciné par les langues et appréciait la façon dont penser dans différentes langues signifie penser différemment à quelque chose, a-t-il déclaré. À la fin du collège en France, où il est né, il parlait français, espagnol, allemand, latin, grec et anglais.

Il avait également une aisance naturelle pour les mathématiques, et la combinaison des deux intérêts l’a conduit au traitement du langage naturel. En tant que doctorant à l’Université de New York, il a travaillé sur les applications médicales de la technologie. Chez Facebook, il a travaillé sur l’IA qui fournissait des réponses par paragraphe à des questions complexes.

L’approche de BigSciences demandant aux individus de conserver 60% des données de formation marque un changement radical. Mais près de 40% de l’ensemble de données BigScience provient toujours d’une exploration typique d’Internet. Au moment de filtrer ces données, BigScience a essayé d’éviter de porter des jugements de valeur sur le contenu sexuel, a déclaré Jernite, et a pris le parti de ne pas bloquer les termes.

Des recherches récentes ont montré que le filtrage peut introduire de nouveaux problèmes. Un article de 2021 sur l’un des plus grands ensembles de données provenant d’une exploration d’Internet a révélé que le fait de ranger le texte en supprimant les insultes sur une liste de blocage approuvée par l’industrie supprimait le contenu sur l’identité LGBTQ, ainsi que le texte écrit en afro-américain et hispanique. vernaculaires.

Rencontrez le scientifique qui enseigne l’IA à la police de la parole humaine

Les ambitions de BigSciences étaient plus importantes que de simplement travailler avec des locuteurs de langue maternelle, comme l’a fait Meta. BigScience a également impliqué ces communautés dans la prise de décision dès le départ et leur a demandé de fournir des données qui expliquaient leur culture, pas seulement pour l’exactitude. Certains des groupes avec lesquels BigScience a travaillé comprenaient Masakhane, un groupe africain d’apprentissage automatique, LatinX in AI, Machine Learning Tokyo et VietAI. Pour donner plus de contrôle aux volontaires, les participants qui ont fourni des données originales pouvaient décider qui pouvait télécharger ou accéder à leur travail.

Abeba Birhane, chercheur principal à la Fondation Mozilla, qui étudie les biais dans les ensembles de données à grande échelle, a déclaré que BigScience était une amélioration relative par rapport à OpenAI et Google pour son travail avec des communautés de locuteurs de langue maternelle. Mais Birhane a averti que ces communautés ne pourraient recevoir qu’un avantage indirect. Les mêmes entreprises pourraient intervenir, utiliser les ensembles de données nouvellement apparus dans leurs modèles et continuer à se positionner comme l’autorité sur ces outils, a-t-elle déclaré.

Maraim Masoud, une ingénieure en apprentissage automatique originaire de Libye et désormais basée en Europe, a déclaré qu’elle se concentrait sur la bonne représentation de l’arabe. Masoud et ses collègues, dont Zaid Alyafeai, doctorant en apprentissage automatique à l’Université King Fahd en Arabie saoudite, ont étendu leur travail pour BigScience à Masader, un catalogue d’ensembles de données arabes. La plupart des ensembles de données se concentrent sur l’arabe standard, qui est utilisé dans le discours formel, comme les journaux. Il existe moins d’ensembles de données sur les dialectes arabes, qui sont souvent utilisés dans les médias sociaux et peuvent différer considérablement de l’arabe standard et les uns des autres, même au sein des pays.

Masoud aide maintenant à évaluer le modèle sur les biais, la toxicité et l’impact social. Elle a dit qu’elle avait bon espoir. Même avec GPT-3, l’intention n’était pas d’avoir un modèle biaisé, a-t-elle déclaré. Les humains le testent et ce faisant, il révélera beaucoup de lacunes et de torts. Ils pourraient proposer une nouvelle façon d’utiliser le modèle que nous n’avions pas prévu.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite