Résumés rédigés par des scientifiques idiots de ChatGPT

Les milliardaires vendent des actions Nvidia et achètent…

La page Web de ChatGPT est visible sur le site Web d'OpenAI sur un écran d'ordinateur — Les scientifiques et les spécialistes de l’édition craignent que la sophistication croissante des chatbots ne compromette l’intégrité et la précision de la recherche.Crédit : Ted Hsu/Alamy

Un chatbot d’intelligence artificielle (IA) peut écrire de faux résumés d’articles de recherche si convaincants que les scientifiques sont souvent incapables de les repérer, selon une préimpression publiée sur le serveur bioRxiv fin décembre¹. Les chercheurs sont divisés sur les implications pour la science.

Je suis très inquiète, dit Sandra Wachter, qui étudie la technologie et la réglementation à l’Université d’Oxford, au Royaume-Uni, et n’a pas participé à la recherche. Si nous étions maintenant dans une situation où les experts ne sont pas en mesure de déterminer ce qui est vrai ou non, nous perdons l’intermédiaire dont nous avons désespérément besoin pour nous guider à travers des sujets compliqués, ajoute-t-elle.

Le chatbot, ChatGPT, crée un texte réaliste et intelligent en réponse aux invites de l’utilisateur. Il s’agit d’un grand modèle de langage, un système basé sur des réseaux de neurones qui apprennent à effectuer une tâche en assimilant d’énormes quantités de texte généré par l’homme. La société de logiciels OpenAI, basée à San Francisco, en Californie, a publié l’outil le 30 novembre et son utilisation est gratuite.

Depuis sa sortie, les chercheurs se sont attaqués aux problèmes éthiques entourant son utilisation, car une grande partie de sa production peut être difficile à distinguer du texte écrit par l’homme. Des scientifiques ont publié une prépublication² et un éditorial³ écrit par ChatGPT. Aujourd’hui, un groupe dirigé par Catherine Gao de la Northwestern University de Chicago, dans l’Illinois, a utilisé ChatGPT pour générer des résumés d’articles de recherche artificiels afin de tester si les scientifiques peuvent les repérer.

Les chercheurs ont demandé au chatbot de rédiger 50 résumés de recherche médicale basés sur une sélection publiée dans JAMA, Le New England Journal of Medicine, Le BMJ, Le Lancet et Médecine naturelle. Ils les ont ensuite comparés aux résumés originaux en les faisant passer à travers un détecteur de plagiat et un détecteur de sortie AI, et ils ont demandé à un groupe de chercheurs médicaux de repérer les résumés fabriqués.

Sous le radar

Les résumés générés par ChatGPT ont traversé le vérificateur de plagiat : le score d’originalité médian était de 100 %, ce qui indique qu’aucun plagiat n’a été détecté. Le détecteur de sortie AI a repéré 66 % des résumés générés. Mais les relecteurs humains n’ont pas fait beaucoup mieux : ils n’ont identifié correctement que 68 % des résumés générés et 86 % des résumés authentiques. Ils ont incorrectement identifié 32 % des résumés générés comme étant réels et 14 % des résumés authentiques comme étant générés.

ChatGPT écrit des résumés scientifiques crédibles, disent Gao et ses collègues dans la prépublication. Les limites de l’utilisation éthique et acceptable des grands modèles de langage pour aider l’écriture scientifique restent à déterminer.

Wachter dit que si les scientifiques ne peuvent pas déterminer si la recherche est vraie, il pourrait y avoir des conséquences désastreuses. En plus d’être problématique pour les chercheurs, qui pourraient être entraînés dans des voies d’investigation erronées, parce que la recherche qu’ils lisent a été fabriquée, il y a des implications pour la société dans son ensemble, car la recherche scientifique joue un rôle si énorme dans notre société. Par exemple, cela pourrait signifier que les décisions politiques fondées sur la recherche sont incorrectes, ajoute-t-elle.

Mais Arvind Narayanan, informaticien à l’Université de Princeton dans le New Jersey, déclare : Il est peu probable qu’un scientifique sérieux utilise ChatGPT pour générer des résumés. Il ajoute que le fait que les résumés générés puissent être détectés n’est pas pertinent. La question est de savoir si l’outil peut générer un résumé précis et convaincant. Il ne peut pas, et donc l’avantage d’utiliser ChatGPT est minuscule, et l’inconvénient est important, dit-il.

Irene Solaiman, qui étudie l’impact social de l’IA chez Hugging Face, une société d’IA dont le siège est à New York et à Paris, craint toute dépendance à l’égard de grands modèles de langage pour la pensée scientifique. Ces modèles sont formés sur des informations passées et le progrès social et scientifique peut souvent provenir de la pensée, ou de l’ouverture à la pensée, différemment du passé, ajoute-t-elle.

Les auteurs suggèrent que ceux qui évaluent les communications scientifiques, telles que les articles de recherche et les actes de conférence, devraient mettre en place des politiques pour éradiquer l’utilisation des textes générés par l’IA. Si les institutions choisissent d’autoriser l’utilisation de la technologie dans certains cas, elles doivent établir des règles claires concernant la divulgation. Plus tôt ce mois-ci, la quarantième conférence internationale sur l’apprentissage automatique, une grande conférence sur l’IA qui se tiendra à Honolulu, Hawaï, en juillet, a annoncé qu’elle avait interdit les articles écrits par ChatGPT et d’autres outils de langage d’IA.

Solaiman ajoute que dans les domaines où de fausses informations peuvent mettre en danger la sécurité des personnes, comme la médecine, les revues peuvent avoir à adopter une approche plus rigoureuse pour vérifier que les informations sont exactes.

Narayanan dit que les solutions à ces problèmes ne devraient pas se concentrer sur le chatbot lui-même, mais plutôt sur les incitations perverses qui conduisent à ce comportement, comme les universités qui effectuent des examens d’embauche et de promotion en comptant les articles sans tenir compte de leur qualité ou de leur impact.

www.actusduweb.com

Suivez Actusduweb sur Google News