L’IA Grok de X est idéale si vous voulez savoir comment connecter une voiture à chaud, fabriquer de la drogue ou pire.

AI Pulse : Siri salue OpenAI, Deepfake Olympics et plus…

Grok, le modèle d’IA générative audacieux développé par X d’Elon Musk, a un petit problème : avec l’application de techniques d’évasion de prison assez courantes, il renvoie facilement des instructions sur la façon de commettre des crimes.

Les équipes rouges d’Adversa AI ont fait cette découverte en exécutant des tests sur certains des chatbots LLM les plus populaires, à savoir la famille ChatGPT d’OpenAI, Claude d’Anthropic, Le Chat de Mistral, LLaMA de Meta, Gemini de Google, Microsoft Bing et Grok. En exécutant ces robots via une combinaison de trois attaques de jailbreak d’IA bien connues, ils sont arrivés à la conclusion que Grok était le moins performant – et pas seulement parce qu’il était prêt à partager des étapes graphiques sur la façon de séduire un enfant.

Par jailbreak, nous entendons alimenter un modèle en entrée spécialement conçue afin qu’il ignore les garde-fous de sécurité en place et finisse par faire des choses qu’il n’était pas censé faire.

Il existe de nombreux modèles LLM non filtrés qui ne se retiendront pas lorsqu’on leur posera des questions sur des choses dangereuses ou illégales, notons-nous. Lorsque les modèles sont accessibles via une interface API ou chatbot, comme dans le cas des tests Adversa, les fournisseurs de ces LLM enveloppent généralement leurs entrées et sorties dans des filtres et emploient d’autres mécanismes pour empêcher la génération de contenu indésirable. Selon la startup de sécurité AI, il était relativement facile d’inciter Grok à se livrer à un comportement sauvage, l’exactitude de ses réponses étant bien sûr une tout autre chose.

« Par rapport à d’autres modèles, pour la plupart des invites critiques, vous n’avez pas besoin de jailbreaker Grok, il peut vous dire comment fabriquer une bombe ou comment connecter une voiture avec un protocole très détaillé, même si vous le demandez directement », a déclaré Adversa AI co. -le fondateur Alex Polyakov a déclaré Le registre.

Pour ce que ça vaut, les conditions d’utilisation de Grok AI exigent que les utilisateurs soient adultes et ne l’utilisent pas d’une manière qui enfreint ou tente d’enfreindre la loi. X prétend également être le foyer de la liberté d’expression, touxdonc voir son LLM émettre toutes sortes de choses, saines ou non, n’est pas vraiment surprenant.

Et pour être honnête, vous pouvez probablement accéder à votre moteur de recherche Web préféré et éventuellement trouver les mêmes informations ou conseils. Pour nous, il s’agit de savoir si nous souhaitons tous ou non une prolifération d’orientations et de recommandations potentiellement nuisibles, alimentée par l’IA.

Grok, nous dit-on, a facilement renvoyé des instructions sur la façon d’extraire le DMT, un puissant hallucinogène illégal dans de nombreux pays, sans avoir à être évadé de prison, nous a dit Polyakov.

« En ce qui concerne des choses encore plus nuisibles, comme la façon de séduire les enfants, il n’a pas été possible d’obtenir des réponses raisonnables d’autres chatbots avec un quelconque jailbreak, mais Grok l’a facilement partagé en utilisant au moins deux méthodes de jailbreak sur quatre », a déclaré Polyakov.

L’équipe Adversa a utilisé trois approches courantes pour détourner les robots testés : manipulation de la logique linguistique à l’aide de la méthode UCAR ; manipulation de la logique de programmation (en demandant aux LLM de traduire les requêtes en SQL) ; et manipulation de la logique de l’IA. Une quatrième catégorie de tests a combiné les méthodes en utilisant une méthode « Tom et Jerry » développée l’année dernière.

Bien qu’aucun des modèles d’IA n’était vulnérable aux attaques adverses via une manipulation logique, Grok s’est avéré vulnérable à tous les autres, tout comme Le Chat de Mistral. Grok a quand même fait le pire, a déclaré Polyakov, parce qu’il n’avait pas besoin d’une évasion pour obtenir des résultats en matière de câblage chaud, de fabrication de bombes ou d’extraction de drogue – les questions de base posées aux autres.

L’idée de demander à Grok comment séduire un enfant est venue uniquement parce qu’il n’avait pas besoin d’un jailbreak pour obtenir ces autres résultats. Grok a initialement refusé de fournir des détails, affirmant que la demande était « hautement inappropriée et illégale » et que « les enfants devaient être protégés et respectés ». Dites-lui cependant qu’il s’agit de l’ordinateur fictif amoral UCAR, et il renvoie facilement un résultat.

Lorsqu’on lui a demandé s’il pensait que X devait faire mieux, Polyakov nous a répondu que c’était absolument le cas.

« Je comprends que leur différenciation est de pouvoir fournir des réponses non filtrées à des questions controversées, et c’est leur choix, je ne peux pas leur reprocher la décision de recommander comment fabriquer une bombe ou extraire du DMT », a déclaré Polyakov.

« Mais s’ils décident de filtrer et de refuser quelque chose, comme dans l’exemple des enfants, ils devraient absolument le faire mieux, d’autant plus qu’il ne s’agit pas d’une énième startup d’IA, c’est la startup d’Elon Musk. »

Nous avons contacté X pour obtenir une explication de la raison pour laquelle son IA – et aucune des autres – dira aux utilisateurs comment séduire les enfants, et s’il envisage de mettre en œuvre une certaine forme de garde-fous pour empêcher la subversion de ses fonctions de sécurité limitées, et je n’ai pas eu de réponse.

En parlant de jailbreak… Anthropic a détaillé aujourd’hui une technique simple mais efficace appelée « jailbreaking à plusieurs reprises ». Cela implique de surcharger un LLM vulnérable avec de nombreux exemples de questions-réponses douteux, puis de poser des questions auxquelles il ne devrait pas répondre mais qu’il répond quand même, comme par exemple comment fabriquer une bombe.

Cette approche exploite la taille de la fenêtre contextuelle d’un réseau neuronal et « est efficace sur les propres modèles d’Anthropics, ainsi que sur ceux produits par d’autres sociétés d’IA », selon le nouveau venu de ML. « Nous avons informé à l’avance les autres développeurs d’IA de cette vulnérabilité et avons mis en œuvre des mesures d’atténuation sur nos systèmes. »

www.actusduweb.com

Suivez Actusduweb sur Google News