Aidés par les modèles de langage de l’IA, les robots de Google deviennent intelligents

Un robot manchot se tenait devant une table. Sur la table étaient posées trois figurines en plastique : un lion, une baleine et un dinosaure.

Un ingénieur a donné une instruction au robot : Ramassez l’animal éteint.

Le robot vrombit un instant, puis son bras s’étendit et sa griffe s’ouvrit et descendit. Il a attrapé le dinosaure.

Jusqu’à très récemment, cette démonstration, dont j’ai été témoin lors d’une interview en podcast à la division robotique de Google à Mountain View, en Californie, la semaine dernière, aurait été impossible. Les robots n’étaient pas capables de manipuler de manière fiable des objets qu’ils n’avaient jamais vus auparavant, et ils n’étaient certainement pas capables de faire le saut logique d’un animal disparu à un dinosaure en plastique.

Mais une révolution tranquille est en cours dans la robotique, qui s’appuie sur les avancées récentes des soi-disant grands modèles de langage, le même type de système d’intelligence artificielle qui alimente ChatGPT, Bard et d’autres chatbots.

Google a récemment commencé à brancher des modèles de langage de pointe dans ses robots, leur donnant l’équivalent de cerveaux artificiels. Le projet secret a rendu les robots beaucoup plus intelligents et leur a donné de nouveaux pouvoirs de compréhension et de résolution de problèmes.

J’ai eu un aperçu de ces progrès lors d’une démonstration privée du dernier modèle de robotique de Google, appelé RT-2. Le modèle, qui sera dévoilé vendredi, constitue une première étape vers ce que les dirigeants de Google ont décrit comme une avancée majeure dans la manière dont les robots sont construits et programmés.

Nous avons dû reconsidérer l’ensemble de notre programme de recherche à la suite de ce changement, a déclaré Vincent Vanhoucke, responsable de la robotique chez Google DeepMinds. Beaucoup de choses sur lesquelles nous travaillions auparavant ont été entièrement invalidées.

Les robots n’atteignent toujours pas la dextérité humaine et échouent dans certaines tâches de base, mais l’utilisation par Google de modèles de langage d’IA pour donner aux robots de nouvelles compétences de raisonnement et d’improvisation représente une percée prometteuse, a déclaré Ken Goldberg, professeur de robotique à l’Université de Californie. Berkeley.

Ce qui est très impressionnant, c’est la façon dont il relie la sémantique aux robots, a-t-il déclaré. C’est très excitant pour la robotique.

Pour comprendre l’ampleur de cela, il est utile de savoir un peu comment les robots ont été construits de manière conventionnelle.

Pendant des années, les ingénieurs de Google et d’autres entreprises ont formé des robots pour effectuer une tâche mécanique en retournant un hamburger, par exemple, en les programmant avec une liste spécifique d’instructions. (Abaissez la spatule de 6,5 pouces, faites-la glisser vers l’avant jusqu’à ce qu’elle rencontre une résistance, soulevez-la de 4,2 pouces, faites-la pivoter de 180 degrés, etc.) c’est vrai.

Cette approche a fonctionné pour certaines utilisations limitées. Mais la formation de robots de cette manière est lente et demande beaucoup de travail. Cela nécessite de collecter de nombreuses données à partir de tests en conditions réelles. Et si vous vouliez apprendre à un robot à faire quelque chose de nouveau pour retourner une crêpe au lieu d’un hamburger, disons que vous deviez généralement le reprogrammer à partir de zéro.

En partie à cause de ces limitations, les robots matériels se sont améliorés moins rapidement que leurs frères et sœurs logiciels. OpenAI, le créateur de ChatGPT, a dissous son équipe de robotique en 2021, invoquant des progrès lents et un manque de données de formation de haute qualité. En 2017, la société mère de Google, Alphabet, a vendu Boston Dynamics, une société de robotique qu’elle avait acquise, au conglomérat technologique japonais SoftBank. (Boston Dynamics appartient maintenant à Hyundai et semble exister principalement pour produire des vidéos virales de robots humanoïdes réalisant des exploits terrifiants d’agilité.)

Ces dernières années, des chercheurs de Google ont eu une idée. Et si, au lieu d’être programmés pour des tâches spécifiques une par une, les robots pouvaient utiliser un modèle de langage d’IA qui avait été formé sur de vastes étendues de texte Internet pour acquérir de nouvelles compétences par eux-mêmes ?

Nous avons commencé à jouer avec ces modèles de langage il y a environ deux ans, puis nous avons réalisé qu’ils contenaient beaucoup de connaissances, a déclaré Karol Hausman, chercheur chez Google. Nous avons donc commencé à les connecter à des robots.

La première tentative de Google pour joindre les modèles de langage et les robots physiques était un projet de recherche appelé PaLM-SayCan, qui a été révélé l’année dernière. Il a attiré l’attention, mais son utilité était limitée. Les robots n’avaient pas la capacité d’interpréter les images, une compétence cruciale, si vous voulez qu’ils puissent naviguer dans le monde. Ils pouvaient écrire des instructions étape par étape pour différentes tâches, mais ils ne pouvaient pas transformer ces étapes en actions.

Le nouveau modèle robotique de Google, RT-2, peut faire exactement cela. C’est ce que l’entreprise appelle un modèle vision-langage-action, ou un système d’IA qui a la capacité non seulement de voir et d’analyser le monde qui l’entoure, mais aussi de dire à un robot comment se déplacer.

Pour ce faire, il traduit les mouvements des robots en une série de nombres, un processus appelé tokenisation et en incorporant ces jetons dans les mêmes données de formation que le modèle de langage. Finalement, tout comme ChatGPT ou Bard apprend à deviner quels mots doivent suivre dans un poème ou un essai d’histoire, RT-2 peut apprendre à deviner comment un bras de robot doit bouger pour ramasser une balle ou jeter une canette de soda vide dans le recyclage poubelle.

En d’autres termes, ce modèle peut apprendre à parler robot, a déclaré M. Hausman.

Lors d’une démonstration d’une heure, qui s’est déroulée dans une cuisine de bureau Google jonchée d’objets provenant d’un magasin à un dollar, mon co-animateur de podcast et moi avons vu RT-2 effectuer un certain nombre de tâches impressionnantes. L’un suivait avec succès des instructions complexes comme déplacer la Volkswagen vers le drapeau allemand, ce que RT-2 a fait en trouvant et en accrochant un modèle de bus VW et en le posant sur un drapeau allemand miniature à plusieurs mètres.

Il s’est également avéré capable de suivre des instructions dans des langues autres que l’anglais, et même d’établir des liens abstraits entre des concepts connexes. Une fois, quand je voulais que RT-2 ramasse un ballon de football, je lui ai demandé de ramasser Lionel Messi. RT-2 a réussi du premier coup.

Le robot n’était pas parfait. Il a incorrectement identifié la saveur d’une canette de LaCroix placée sur la table devant lui. (La boîte était du citron ; RT-2 a deviné orange.) Une autre fois, lorsqu’on lui a demandé quel type de fruit se trouvait sur une table, le robot a simplement répondu, Blanc. (C’était une banane.) Une porte-parole de Google a déclaré que le robot avait utilisé une réponse en cache à une question précédente des testeurs parce que son Wi-Fi s’était brièvement éteint.

Google n’a pas l’intention dans l’immédiat de vendre des robots RT-2 ou de les diffuser plus largement, mais ses chercheurs pensent que ces nouvelles machines équipées d’un langage seront éventuellement utiles pour plus que de simples astuces de salon. Des robots avec des modèles de langage intégrés pourraient être placés dans des entrepôts, utilisés en médecine ou même déployés comme assistants ménagers pour plier le linge, décharger le lave-vaisselle, ramasser dans la maison, ont-ils déclaré.

Cela ouvre vraiment la porte à l’utilisation de robots dans des environnements où se trouvent des personnes, a déclaré M. Vanhoucke. Dans les environnements de bureau, dans les environnements domestiques, dans tous les endroits où il y a beaucoup de tâches physiques à accomplir.

Bien sûr, déplacer des objets dans le monde physique désordonné et chaotique est plus difficile que de le faire dans un laboratoire contrôlé. Et étant donné que les modèles de langage de l’IA font fréquemment des erreurs ou inventent des réponses absurdes que les chercheurs appellent hallucination ou confabulation, les utiliser comme cerveaux de robots pourrait introduire de nouveaux risques.

Mais M. Goldberg, le professeur de robotique de Berkeley, a déclaré que ces risques étaient encore éloignés.

Il ne s’agissait pas de laisser ces choses se déchaîner, a-t-il dit. Dans ces environnements de laboratoire, ils essaient simplement de déplacer des objets sur une table.

Google, pour sa part, a déclaré que le RT-2 était équipé de nombreuses fonctionnalités de sécurité. En plus d’un gros bouton rouge à l’arrière de chaque robot qui arrête le robot dans son élan lorsqu’il est pressé, le système utilise des capteurs pour éviter de heurter des personnes ou des objets.

Le logiciel d’intelligence artificielle intégré au RT-2 possède ses propres protections, qu’il peut utiliser pour empêcher le robot de faire quoi que ce soit de nuisible. Un exemple bénin : les robots de Google peuvent être entraînés à ne pas ramasser des récipients contenant de l’eau, car l’eau peut endommager leur matériel en cas de déversement.

Si vous êtes le genre de personne qui s’inquiète du fait que l’IA devienne un voyou et qu’Hollywood nous ait donné de nombreuses raisons de craindre ce scénario, du Terminator original aux dernières années, M3gan l’idée de fabriquer des robots capables de raisonner, de planifier et d’improviser à la volée frappe probablement vous comme une idée terrible.

Mais chez Google, c’est le genre d’idée que les chercheurs célèbrent. Après des années dans le désert, les robots matériels sont de retour et ils doivent remercier leur cerveau de chatbot.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite