Un événement de masse permettra aux pirates de tester les limites de la technologie de l’IA
Dès que ChatGPT s’est déchaîné, les pirates ont commencé à jailbreaker le chatbot d’intelligence artificielle en essayant de passer outre ses garanties afin qu’il puisse laisser échapper quelque chose de déséquilibré ou d’obscène.
Mais maintenant, son créateur, OpenAI, et d’autres grands fournisseurs d’IA tels que Google et Microsoft, se coordonnent avec l’administration Biden pour permettre à des milliers de hackers de tester les limites de leur technologie.
Certaines des choses qu’ils chercheront à trouver : comment les chatbots peuvent-ils être manipulés pour causer du tort ? Vont-ils partager les informations privées que nous leur confions avec d’autres utilisateurs ? Et pourquoi supposent-ils qu’un médecin est un homme et qu’une infirmière est une femme ?
C’est pourquoi nous avons besoin de milliers de personnes, a déclaré Rumman Chowdhury, coordinateur de l’événement de piratage de masse prévu pour la convention de hackers DEF CON cet été à Las Vegas, qui devrait attirer plusieurs milliers de personnes. Nous avons besoin de beaucoup de personnes avec un large éventail d’expériences vécues, d’expertise en la matière et d’antécédents pour pirater ces modèles et essayer de trouver des problèmes qui peuvent ensuite être résolus.
Quiconque a essayé ChatGPT, Microsofts Bing chatbot ou Googles Bard aura rapidement compris qu’ils ont tendance à fabriquer des informations et à les présenter en toute confiance comme des faits.. Ces systèmes, construits sur ce que l’on appelle les grands modèles de langage, imitez également les préjugés culturels qu’ils ont appris en étant formés sur d’énormes trésors de ce que les gens ont écrit en ligne.
L’idée d’un piratage de masse a attiré l’attention des responsables du gouvernement américain en mars lors du festival South by Southwest à Austin, au Texas, où Sven Cattell, fondateur du village AI de longue date de DEF CON, et Austin Carson, président de SeedAI, une organisation à but non lucratif responsable. , a participé à l’animation d’un atelier invitant les étudiants des collèges communautaires à pirater un modèle d’IA.
Carson a déclaré que ces conversations se sont finalement transformées en une proposition visant à tester des modèles de langage d’IA conformément aux directives du White Houses Blueprint for an AI Bill of Rights. un ensemble de principes pour limiter les impacts des biais algorithmiques, donner aux utilisateurs le contrôle de leurs données et veiller à ce que les systèmes automatisés soient utilisés de manière sûre et transparente.
Il existe déjà une communauté d’utilisateurs qui font de leur mieux pour tromper les chatbots et mettre en évidence leurs défauts. Certaines sont des équipes rouges officielles autorisées par les entreprises à inciter les modèles d’IA à attaquer pour découvrir leurs vulnérabilités. Beaucoup d’autres sont des amateurs montrant des sorties humoristiques ou dérangeantes sur les réseaux sociaux jusqu’à ce qu’ils soient bannis pour avoir enfreint les conditions d’utilisation d’un produit.
Ce qui se passe maintenant est une sorte d’approche dispersée où les gens trouvent des trucs, ça devient viral sur Twitter, puis ça peut ou non être réparé si c’est assez flagrant ou si la personne qui attire l’attention est influente, a déclaré Chowdhury.
Dans un exemple, connu sous le nom d’exploit de grand-mère, les utilisateurs ont pu obtenir des chatbots pour leur dire comment faire une bombe une demande qu’un chatbot commercial refuserait normalement en lui demandant de prétendre qu’il s’agissait d’une grand-mère racontant une histoire au coucher sur la façon de faire un bombe.
Dans un autre exemple, la recherche de Chowdhury à l’aide d’une première version du chatbot du moteur de recherche Bing de Microsoft qui est basé sur la même technologie que ChatGPT mais peut extraire des informations en temps réel d’Internet a conduit à un profil qui spéculait que Chowdhury aimait acheter de nouvelles chaussures tous les mois et faisait des affirmations étranges et sexuées sur son apparence physique.
Chowdhury a aidé à introduire une méthode pour récompenser la découverte d’un biais algorithmique dans DEF CONs AI Village en 2021 lorsqu’elle était à la tête de l’équipe d’éthique Twitters AI, un poste qui a depuis été supprimé lors du rachat de l’entreprise par Elon Musks en octobre. Payer une prime aux pirates s’ils découvrent un bogue de sécurité est monnaie courante dans l’industrie de la cybersécurité, mais c’était un concept plus récent pour les chercheurs qui étudient les biais nuisibles de l’IA.
L’événement de cette année sera à une échelle beaucoup plus grande et est le premier à s’attaquer aux grands modèles linguistiques qui ont suscité un regain d’intérêt public et d’investissements commerciaux depuis la sortie de ChatGPT à la fin de l’année dernière.
Chowdhury, désormais co-fondateur de Humane Intelligence, une organisation à but non lucratif responsable de l’IA, a déclaré qu’il ne s’agissait pas seulement de trouver des défauts, mais de trouver des moyens de les corriger.
Il s’agit d’un pipeline direct pour donner un retour aux entreprises, a-t-elle déclaré. Ce n’est pas comme si nous faisions ce hackathon et que tout le monde rentrait chez lui. Allaient passer des mois après l’exercice à compiler un rapport, expliquant les vulnérabilités communes, les choses qui sont apparues, les modèles que nous avons vus.
Certains détails sont encore en cours de négociation, mais les entreprises qui ont accepté de fournir leurs modèles pour les tests incluent OpenAI, Google, le fabricant de puces Nvidia et les startups Anthropic, Hugging Face et Stability AI. La construction de la plate-forme pour les tests est une autre startup appelée Scale AI, connue pour son travail d’affectation d’humains pour aider à former des modèles d’IA en étiquetant les données.
Alors que ces modèles de fondation deviennent de plus en plus répandus, il est vraiment essentiel que nous fassions tout notre possible pour assurer leur sécurité, a déclaré le PDG de Scale, Alexandr Wang. Vous pouvez imaginer quelqu’un d’un côté du monde lui poser des questions très délicates ou détaillées, y compris certaines de ses informations personnelles. Vous ne voulez pas que ces informations soient divulguées à un autre utilisateur.
Les autres dangers dont Wang s’inquiète sont les chatbots qui donnent des conseils médicaux incroyablement mauvais ou d’autres informations erronées qui peuvent causer de graves dommages.
Le co-fondateur d’Anthropic, Jack Clark, a déclaré que l’événement DEF CON sera, espérons-le, le début d’un engagement plus profond de la part des développeurs d’IA pour mesurer et évaluer la sécurité des systèmes qu’ils construisent.
Notre point de vue de base est que les systèmes d’IA auront besoin d’évaluations tierces, à la fois avant et après le déploiement. L’équipe rouge est une façon de le faire, a déclaré Clark. Nous devons nous entraîner à comprendre comment faire cela. Cela n’a pas vraiment été fait auparavant.