Les initiés d’OpenAI mettent en garde contre une course imprudente à la domination
Un groupe d’initiés d’OpenAI dénonce ce qu’ils disent être une culture d’imprudence et de secret au sein de la société d’intelligence artificielle de San Francisco, qui se bat pour construire les systèmes d’IA les plus puissants jamais créés.
Le groupe, qui comprend neuf employés actuels et anciens d’OpenAI, s’est rallié ces derniers jours autour de préoccupations communes selon lesquelles l’entreprise n’a pas fait suffisamment pour empêcher ses systèmes d’IA de devenir dangereux.
Les membres affirment qu’OpenAI, qui a débuté comme un laboratoire de recherche à but non lucratif et s’est fait connaître du public avec la sortie de ChatGPT en 2022, donne la priorité aux profits et à la croissance alors qu’il tente de construire une intelligence artificielle générale, ou AGI, le terme industriel désignant un ordinateur. programme capable de faire tout ce qu’un humain peut faire.
Ils affirment également qu’OpenAI a utilisé des tactiques dures pour empêcher les travailleurs d’exprimer leurs préoccupations concernant la technologie, notamment des accords restrictifs de non-dénigrement que les employés qui partaient étaient invités à signer.
OpenAI est vraiment enthousiasmé par la création d’AGI, et ils se précipitent imprudemment pour être les premiers, a déclaré Daniel Kokotajlo, ancien chercheur de la division de gouvernance d’OpenAI et l’un des organisateurs du groupe.
Le groupe a publié mardi une lettre ouverte appelant les principales sociétés d’IA, dont OpenAI, à établir une plus grande transparence et davantage de protections pour les lanceurs d’alerte.
Les autres membres comprennent William Saunders, un ingénieur de recherche qui a quitté OpenAI en février, et trois autres anciens employés d’OpenAI : Carroll Wainwright, Jacob Hilton et Daniel Ziegler. Plusieurs employés actuels d’OpenAI ont approuvé la lettre de manière anonyme parce qu’ils craignaient des représailles de la part de l’entreprise, a déclaré M. Kokotajlo. Un employé actuel et un ancien employé de Google DeepMind, le laboratoire central d’IA de Google, ont également signé.
Une porte-parole d’OpenAI, Lindsey Held, a déclaré dans un communiqué : Nous sommes fiers de nos antécédents en matière de fourniture des systèmes d’IA les plus performants et les plus sûrs et croyons en notre approche scientifique pour gérer les risques. Nous convenons qu’un débat rigoureux est crucial étant donné l’importance de cette technologie, et nous continuerons à collaborer avec les gouvernements, la société civile et d’autres communautés à travers le monde.
Un porte-parole de Google a refusé de commenter.
La campagne arrive à un moment difficile pour OpenAI. L’entreprise se remet encore de la tentative de coup d’État de l’année dernière, lorsque les membres du conseil d’administration de l’entreprise ont voté le limogeage de Sam Altman, le directeur général, en raison de préoccupations concernant sa franchise. M. Altman a été ramené quelques jours plus tard et le conseil d’administration a été refait avec de nouveaux membres.
L’entreprise est également confrontée à des batailles juridiques avec des créateurs de contenu qui l’accusent d’avoir volé des œuvres protégées par le droit d’auteur pour former ses modèles. (Le New York Times a poursuivi OpenAI et son partenaire Microsoft pour violation du droit d’auteur l’année dernière.) Et son récent dévoilement d’un assistant vocal hyperréaliste a été gâché par une dispute publique avec l’actrice hollywoodienne Scarlett Johansson, qui a affirmé qu’OpenAI avait imité sa voix sans permission.
Mais rien n’est plus resté que l’accusation selon laquelle OpenAI aurait été trop cavalier en matière de sécurité.
Le mois dernier, deux chercheurs principaux en IA, Ilya Sutskever et Jan Leike, ont quitté OpenAI sous un nuage. Le Dr Sutskever, qui siégeait au conseil d’administration d’OpenAI et avait voté en faveur du licenciement de M. Altman, avait sonné l’alarme sur les risques potentiels des systèmes d’IA puissants. Son départ a été perçu par certains salariés soucieux de la sécurité comme un revers.
Il en a été de même pour le départ du Dr Leike, qui, avec le Dr Sutskever, avait dirigé l’équipe de superalignement d’OpenAI, qui se concentrait sur la gestion des risques liés aux modèles d’IA puissants. Dans une série de messages publics annonçant son départ, le Dr Leike a déclaré qu’il pensait que la culture et les processus de sécurité étaient passés au second plan par rapport aux produits brillants.
Ni le Dr Sutskever ni le Dr Leike n’ont signé la lettre ouverte rédigée par d’anciens employés. Mais leur départ a incité d’autres anciens employés d’OpenAI à s’exprimer.
Lorsque je me suis inscrit à OpenAI, je n’ai pas souscrit à cette attitude consistant à mettre les choses au monde et à voir ce qui se passe et à les réparer par la suite, a déclaré M. Saunders.
Certains des anciens employés ont des liens avec l’altruisme efficace, un mouvement d’inspiration utilitariste qui s’est préoccupé ces dernières années de prévenir les menaces existentielles de l’IA. Les critiques ont accusé le mouvement de promouvoir des scénarios apocalyptiques sur la technologie, comme l’idée qu’un Un système d’IA sans contrôle pourrait prendre le relais et anéantir l’humanité.
M. Kokotajlo, 31 ans, a rejoint OpenAI en 2022 en tant que chercheur en gouvernance et a été chargé de prévoir les progrès de l’IA. Il n’était pas, pour le moins, optimiste.
Dans son précédent emploi au sein d’une organisation de sécurité de l’IA, il avait prédit que l’AGI pourrait arriver en 2050. Mais après avoir constaté à quelle vitesse l’IA s’améliorait, il a raccourci ses délais. Il estime désormais qu’il y a 50 % de chances qu’AGI arrive d’ici 2027 dans seulement trois ans.
Il estime également que la probabilité qu’une IA avancée détruise ou nuise de manière catastrophique à l’humanité – une sinistre statistique souvent abrégée en p(doom) dans les cercles de l’IA – est de 70 %.
Chez OpenAI, M. Kokotajlo a constaté que même si l’entreprise avait mis en place des protocoles de sécurité, y compris un effort conjoint avec Microsoft connu sous le nom de comité de sécurité du déploiement, qui était censé examiner les nouveaux modèles pour détecter les risques majeurs avant qu’ils ne soient rendus publics, ils semblaient rarement ralentir. n’importe quoi en bas.
Par exemple, a-t-il déclaré, en 2022, Microsoft a commencé à tester discrètement en Inde une nouvelle version de son moteur de recherche Bing qui, selon certains employés d’OpenAI, contenait une version alors inédite de GPT-4, le grand modèle de langage de pointe d’OpenAI. M. Kokotajlo a déclaré qu’on lui avait dit que Microsoft n’avait pas obtenu l’approbation du conseil de sécurité avant de tester le nouveau modèle, et après que le conseil d’administration ait eu connaissance des tests via une série de rapports selon lesquels Bing agissait étrangement envers les utilisateurs, il n’a rien fait pour empêcher Microsoft de lancer. plus largement.
Un porte-parole de Microsoft, Frank Shaw, a initialement nié ces affirmations. Il a déclaré que les tests indiens n’avaient pas utilisé GPT-4 ni aucun modèle OpenAI. La première fois que Microsoft a publié une technologie basée sur GPT-4, c’était début 2023, a-t-il déclaré, et elle a été examinée et approuvée par un prédécesseur du comité de sécurité.
Après la publication de cet article, Microsoft est revenu sur son démenti et a confirmé les allégations de M. Kokotajlos. Dans une deuxième déclaration, M. Shaw a déclaré : « Après des recherches plus approfondies, nous avons découvert que Bing avait effectué un petit vol qui mélangeait les résultats d’une première version du modèle qui est finalement devenu GPT-4. Il a ajouté que les tests n’avaient pas été examinés au préalable par le comité de sécurité, bien qu’ils aient été approuvés ultérieurement.
Finalement, a déclaré M. Kokotajlo, il est devenu si inquiet que, l’année dernière, il a dit à M. Altman que l’entreprise devrait se tourner vers la sécurité et consacrer plus de temps et de ressources à se prémunir contre les risques liés à l’IA plutôt que de se lancer dans l’amélioration de ses modèles. Il a déclaré que M. Altman avait prétendu être d’accord avec lui, mais que cela n’avait pas beaucoup changé.
En avril, il a arrêté. Dans un e-mail adressé à son équipe, il a déclaré qu’il partait parce qu’il avait perdu confiance dans le fait qu’OpenAI se comporterait de manière responsable » alors que ses systèmes se rapprochent de l’intelligence au niveau humain.
Le monde n’est pas prêt, et nous ne sommes pas prêts, a écrit M. Kokotajlo. Et je crains que nous nous précipitions malgré tout et que nous rationalisions nos actions.
OpenAI a déclaré la semaine dernière qu’elle avait commencé à former un nouveau modèle d’IA phare et qu’elle formait un nouveau comité de sûreté et de sécurité pour explorer les risques associés au nouveau modèle et à d’autres technologies futures.
En partant, M. Kokotajlo a refusé de signer les documents standard d’OpenAI pour les employés qui partaient, qui comprenaient une clause stricte de non-dénigrement leur interdisant de dire des choses négatives sur l’entreprise, sous peine de perdre leurs capitaux propres.
De nombreux employés pourraient perdre des millions de dollars s’ils refusaient de signer. Les capitaux propres acquis par M. Kokotajlos valaient environ 1,7 million de dollars, a-t-il déclaré, ce qui représentait la grande majorité de sa valeur nette, et il était prêt à renoncer à la totalité.
(Une légère tempête s’est ensuivie le mois dernier après que Vox a annoncé la nouvelle de ces accords. En réponse, OpenAI a affirmé qu’elle n’avait jamais récupéré les capitaux acquis des anciens employés et qu’elle ne le ferait pas. M. Altman a déclaré qu’il était véritablement embarrassé de ne pas avoir su. concernant les accords, et l’entreprise a déclaré qu’elle supprimerait les clauses de non-dénigrement de ses documents standards et libérerait les anciens employés de leurs accords.)
Dans leur lettre ouverte, M. Kokotajlo et les autres anciens employés d’OpenAI appellent à la fin du recours aux accords de non-dénigrement et de non-divulgation au sein d’OpenAI et d’autres sociétés d’IA.
De larges accords de confidentialité nous empêchent d’exprimer nos préoccupations, sauf auprès des entreprises mêmes qui ne parviennent pas à résoudre ces problèmes, écrivent-ils.
Ils appellent également les entreprises d’IA à soutenir une culture de critique ouverte et à établir un processus de signalement permettant aux employés de soulever de manière anonyme leurs préoccupations liées à la sécurité.
Ils ont retenu les services d’un avocat pro bono, Lawrence Lessig, éminent juriste et activiste. M. Lessig a également conseillé Frances Haugen, une ancienne employée de Facebook devenue lanceuse d’alerte et accusant cette entreprise de faire passer les profits avant la sécurité.
Dans une interview, M. Lessig a déclaré que même si les protections traditionnelles des lanceurs d’alerte s’appliquaient généralement aux signalements d’activités illégales, il était important que les employés des sociétés d’IA puissent discuter librement des risques et des dommages potentiels, compte tenu de l’importance de la technologie.
Les employés constituent une ligne de défense importante en matière de sécurité, et s’ils ne peuvent pas s’exprimer librement sans représailles, ces chaînes seront fermées, a-t-il déclaré.
Mme Held, la porte-parole d’OpenAI, a déclaré que l’entreprise disposait de moyens permettant aux employés d’exprimer leurs préoccupations, notamment une ligne d’assistance téléphonique anonyme en matière d’intégrité.
M. Kokotajlo et son groupe sont sceptiques quant au fait que l’autorégulation suffira à elle seule à préparer un monde doté de systèmes d’IA plus puissants. Ils demandent donc aux législateurs de réglementer également l’industrie.
Il doit y avoir une sorte de structure de gouvernance démocratiquement responsable et transparente en charge de ce processus », a déclaré M. Kokotajlo. Au lieu de seulement quelques entreprises privées différentes se faisant concurrence et gardant tout secret.