Google ajoute des compétences linguistiques en IA aux robots d’assistance Alphabets pour mieux comprendre les humains
Alphabet, la société mère de Google, rassemble deux de ses projets de recherche les plus ambitieux, la robotique et la compréhension du langage de l’IA, dans le but de créer un robot assistant capable de comprendre les commandes en langage naturel.
Depuis 2019, Alphabet développe des robots capables d’effectuer des tâches simples comme aller chercher des boissons et nettoyer des surfaces. Ce projet Everyday Robots en est encore à ses balbutiements. Les robots sont lents et hésitants, mais les robots ont maintenant reçu une mise à niveau : une meilleure compréhension du langage grâce au grand modèle de langage (LLM) PaLM de Google.
La plupart des robots ne répondent qu’à des instructions courtes et simples, comme apportez-moi une bouteille d’eau. Mais les LLM comme GPT-3 et Googles MuM sont capables de mieux analyser l’intention derrière des commandes plus obliques. Dans l’exemple de Google, vous pourriez dire à l’un des prototypes d’Everyday Robots que j’ai renversé mon verre, pouvez-vous m’aider ? Le robot filtre cette instruction à travers une liste interne d’actions possibles et l’interprète comme va me chercher l’éponge de la cuisine.
Oui, c’est une sorte de barre basse pour un robot intelligent, mais c’est définitivement une amélioration ! Ce qui serait vraiment intelligent serait si ce robot vu tu renverses un verre, entendu tu cries gah oh mon dieu ma stupide boisson et alors Aider.
Google a surnommé le système résultant PaLM-SayCan, le nom décrivant comment le modèle combine les compétences de compréhension du langage des LLM (Say) avec la mise à la terre de ses robots (c’est-à-dire Can filtrant les instructions par des actions possibles).
Google affirme qu’en intégrant PaLM-SayCan dans ses robots, les robots ont pu planifier des réponses correctes à 101 instructions utilisateur 84 % du temps et les exécuter avec succès 74 % du temps. C’est un taux de réussite solide, mais ces chiffres doivent être pris avec des pincettes. Nous n’avons pas la liste complète des 101 commandes, il n’est donc pas clair à quel point ces instructions étaient limitées. Ont-ils vraiment capturé toute l’étendue et la complexité du langage que nous nous attendrions à ce qu’un véritable robot d’aide à domicile comprenne ? C’est peu probable.
C’est parce que c’est l’énorme défi pour Google et d’autres qui travaillent sur les robots domestiques : la vraie vie est sans compromis. Il y a tout simplement trop de commandes complexes que nous voudrions demander à un réel robot domestique, de nettoyer les céréales que je viens de renverser sous le canapé pour faire sauter les oignons pour une sauce pour pâtes (les deux commandes contiennent une grande quantité de connaissances implicites, de la façon de nettoyer les céréales à l’emplacement des oignons dans le réfrigérateur et comment les préparer, etc.).
C’est pourquoi le seul robot domestique de ce siècle à avoir atteint ne serait-ce qu’un minimum de succès, l’aspirateur robot n’a qu’un seul but dans la vie : aspirer la saleté.
Alors que l’IA améliore les compétences telles que la vision et la navigation, nous voyons maintenant de nouveaux types de bots entrer sur le marché, mais ceux-ci sont encore délibérément limités dans ce qu’ils peuvent faire. Regardez le bot Labrador Systems Retriever, par exemple. Il s’agit essentiellement d’une étagère sur roulettes qui déplace les objets d’une pièce à l’autre de la maison. Il y a certainement beaucoup de potentiel dans ce concept simple, le robot Retriever pourrait être incroyablement utile pour les personnes à mobilité réduite, mais il était encore loin des robots majordomes à tout faire de nos rêves.