À l’intérieur d’un nouveau projet radical pour démocratiser l’IA

Mais le modèle Metas n’est disponible que sur demande et dispose d’une licence qui limite son utilisation à des fins de recherche. Hugging Face va encore plus loin. Les réunions détaillant son travail au cours de l’année écoulée sont enregistrées et mises en ligne, et n’importe qui peut télécharger gratuitement le modèle et l’utiliser pour la recherche ou pour créer des applications commerciales.

L’un des principaux objectifs de BigScience était d’intégrer des considérations éthiques dans le modèle dès sa création, au lieu de les traiter comme une réflexion après coup. Les LLM sont formés sur des tonnes de données collectées en grattant Internet. Cela peut être problématique, car ces ensembles de données contiennent de nombreuses informations personnelles et reflètent souvent des biais dangereux. Le groupe a développé des structures de gouvernance des données spécifiquement pour les LLM qui devraient indiquer plus clairement quelles données sont utilisées et à qui elles appartiennent, et il a obtenu différents ensembles de données du monde entier qui n’étaient pas facilement disponibles en ligne.

Le groupe lance également une nouvelle licence d’IA responsable, qui ressemble à un accord de conditions de service. Il est conçu pour dissuader d’utiliser BLOOM dans des secteurs à haut risque tels que l’application de la loi ou les soins de santé, ou pour nuire, tromper, exploiter ou se faire passer pour des personnes. La licence est une expérience d’autorégulation des LLM avant que les lois ne rattrapent leur retard, explique Danish Contractor, un chercheur en intelligence artificielle qui s’est porté volontaire pour le projet et a co-créé la licence. Mais finalement, rien n’empêche quiconque d’abuser de BLOOM.

Le projet avait ses propres directives éthiques en place dès le début, qui ont servi de principes directeurs pour le développement des modèles, explique Giada Pistilli, éthicienne de Hugging Faces, qui a rédigé la charte éthique de BLOOM. Par exemple, il s’est fait un devoir de recruter des bénévoles d’horizons et de lieux divers, de s’assurer que des personnes extérieures peuvent facilement reproduire les résultats du projet et de publier ses résultats au grand jour.

Tous à bord

Cette philosophie se traduit par une différence majeure entre BLOOM et les autres LLM disponibles aujourd’hui : le grand nombre de langages humains que le modèle peut comprendre. Il peut gérer 46 d’entre eux, dont le français, le vietnamien, le mandarin, l’indonésien, le catalan, 13 langues indiennes (comme l’hindi) et 20 langues africaines. Un peu plus de 30 % de ses données de formation étaient en anglais. Le modèle comprend également 13 langages de programmation.

Ceci est très inhabituel dans le monde des grands modèles linguistiques, où l’anglais domine. C’est une autre conséquence du fait que les LLM sont construits en grattant des données sur Internet : l’anglais est la langue la plus couramment utilisée en ligne.

La raison pour laquelle BLOOM a pu améliorer cette situation est que l’équipe a rassemblé des volontaires du monde entier pour créer des ensembles de données appropriés dans d’autres langues, même si ces langues n’étaient pas aussi bien représentées en ligne. Par exemple, Hugging Face a organisé des ateliers avec des chercheurs africains en IA pour essayer de trouver des ensembles de données tels que des enregistrements d’autorités locales ou d’universités qui pourraient être utilisés pour former le modèle sur les langues africaines, explique Chris Emezue, stagiaire à Hugging Face et chercheur à Masakhane. , une organisation travaillant sur le traitement du langage naturel pour les langues africaines.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite