Covariant annonce une plateforme universelle d’IA pour les robots
Quand Spectre IEEEa écrit pour la première fois sur Covariant en 2020, il s’agissait d’une nouvelle startup de robotique cherchant à appliquer la robotique à la préparation en entrepôt à grande échelle grâce à la magie d’un réseau neuronal unique de bout en bout. À l’époque, Covariant se concentrait sur ce cas d’utilisation de préparation de commandes, car il représente une application qui pourrait fournir une valeur immédiate aux entreprises d’entrepôt qui paient Covariant pour que ses robots prélèvent des articles dans leurs entrepôts. Mais pour Covariant, ce qui est passionnant, c’est que la sélection d’articles dans les entrepôts a, au cours des quatre dernières années, généré une quantité massive de données de manipulation réelles, et vous pouvez probablement deviner où cela nous mène.
Aujourd’hui, Covariant annonce RFM-1, que la société décrit comme un modèle de base en robotique qui donne aux robots la capacité de raisonner comme celle d’un humain. Cela vient du communiqué de presse, et même si je ne lirais pas nécessairement trop de choses sur l’humain ou la raison, ce qui se passe ici est plutôt cool.
Le modèle de base signifie que RFM-1 peut être formé sur plus de données pour faire plus de choses pour le moment, il s’agit uniquement de manipulation d’entrepôt car c’est sur cela qu’il a été formé, mais ses capacités peuvent être étendues en lui fournissant plus de données. Notre système existant est déjà suffisamment performant pour effectuer un prélèvement et un placement très rapides et très variables, déclare Pieter Abbeel, co-fondateur de Covariant. Mais nous allons maintenant un peu plus loin. N’importe quelle tâche, n’importe quelle incarnation, c’est la vision à long terme. Des modèles de base en robotique qui alimentent des milliards de robots à travers le monde. D’après le bruit des choses, l’activité de Covariants consistant à déployer une grande flotte de robots d’automatisation d’entrepôt était pour eux le moyen le plus rapide de collecter les dizaines de millions de trajectoires (comment un robot se déplace pendant une tâche) dont ils avaient besoin pour entraîner les 8 milliards de paramètres RFM. -1 modèle.
La seule manière de réaliser ce que nous faisons est de déployer des robots dans le monde entier pour collecter une tonne de données, explique Abbeel. C’est ce qui nous permet de former un modèle de base robotique aux capacités uniques.
Il y a eu d’autres tentatives de ce genre : le projet RTX en est un exemple récent. Mais alors que RT-X dépend du partage des données dont disposent les laboratoires de recherche pour créer un ensemble de données suffisamment volumineux pour être utile, Covariant le fait seul, grâce à sa flotte de robots d’entrepôt. RT-X représente environ un million de trajectoires de données, dit Abbeel, mais nous avons pu le surpasser car nous obtenions un million de trajectoires toutes les quelques semaines.
En construisant un précieux robot de préparation de commandes déployé dans 15 pays avec des dizaines de clients, nous disposons essentiellement d’une machine de collecte de données. Pieter Abbeel, Covariant
Vous pouvez considérer l’exécution actuelle de RFM-1 comme un moteur de prédiction pour la manipulation d’objets par aspiration dans les environnements d’entrepôt. Le modèle intègre des images fixes, des vidéos, des angles d’articulation, la lecture de la force, la force de la ventouse, tout ce qui est impliqué dans le type de manipulation robotique effectuée par Covariant. Tous ces éléments sont interconnectés dans RFM-1, ce qui signifie que vous pouvez placer n’importe lequel de ces éléments à une extrémité de RFM-1, et de l’autre extrémité du modèle naîtra une prédiction. Cette prédiction peut prendre la forme d’une image, d’une vidéo ou d’une série de commandes pour un robot.
Ce qu’il est important de comprendre à propos de tout cela, c’est que RFM-1 ne se limite pas à sélectionner uniquement les éléments qu’il a vus auparavant, ni à travailler uniquement sur des robots avec lesquels il a une expérience directe. C’est ce qui est bien avec les modèles de base qu’ils peuvent généraliser dans le domaine de leurs données de formation, et c’est ainsi que Covariant a pu faire évoluer son activité avec autant de succès qu’elle l’a fait, en n’ayant pas à se recycler pour chaque nouveau robot de prélèvement ou chaque nouvel article. Ce qui est contre-intuitif à propos de ces grands modèles, c’est qu’ils sont en réalité meilleurs pour gérer de nouvelles situations que les modèles formés. spécifiquement pour ces situations.
Par exemple, disons que vous souhaitez former un modèle à conduire une voiture sur une autoroute. La question, dit Abbeel, est de savoir si cela vaudrait la peine de consacrer du temps à une formation sur d’autres types de conduite. La réponse est oui, car la conduite sur autoroute est parfois pas conduite sur autoroute. Il y aura des accidents ou des embouteillages aux heures de pointe qui vous obligeront à conduire différemment. Si vous avez également suivi une formation sur la conduite dans les rues de la ville, vous vous entraînez efficacement sur les cas de bord d’autoroute, ce qui s’avérera utile à un moment donné et améliorera les performances globales. Avec RFM-1, c’est la même idée : s’entraîner sur de nombreux types de manipulation différents, différents robots, différents objets, etc. signifie que n’importe quel type de manipulation sera d’autant plus performant.
Dans le contexte de la généralisation, Covariant parle de la capacité de RFM-1 à comprendre son environnement. Cela peut être un mot délicat avec l’IA, mais ce qui est pertinent est de fonder le sens de comprendre sur ce dont RFM-1 est capable. Par exemple, vous n’avez pas besoin de comprendre physique, pour pouvoir attraper une balle de baseball, il suffit d’avoir beaucoup d’expérience dans la capture de balles de baseball, et c’est là que se trouve RFM-1. Vous pourriez aussi raisonner sur la façon d’attraper une balle de baseball sans expérience mais une compréhension de la physique, et RFM-1 est pas faire cela, c’est pourquoi j’hésite à utiliser le mot comprendre dans ce contexte.
Mais cela nous amène à une autre capacité intéressante de RFM-1 : il fonctionne comme un outil de simulation très efficace, bien que contraint. En tant que moteur de prédiction qui produit une vidéo, vous pouvez lui demander de générer à quoi ressembleront les prochaines secondes d’une séquence d’action, et il vous donnera un résultat à la fois réaliste et précis, fondé sur toutes ses données. La clé ici est que RFM-1 peut simuler efficacement des objets difficiles à simuler traditionnellement, comme les disquettes.
Covariants Abbeel explique que le modèle mondial sur lequel RFM-1 fonde ses prédictions est en réalité un moteur physique appris. Construire des moteurs physiques s’avère être une tâche très ardue pour couvrir réellement tout ce qui peut arriver dans le monde, dit Abbeel. Une fois que vous obtenez des scénarios compliqués, cela devient très imprécis, très rapidement, car les gens doivent faire toutes sortes d’approximations pour faire fonctionner le moteur physique sur un ordinateur. Nous faisons simplement la version de données à grande échelle avec un modèle mondial, et cela montre de très bons résultats.
Abbeel donne un exemple en demandant à un robot de simuler (ou de prédire) ce qui se passerait si un cylindre était placé verticalement sur un tapis roulant. La prédiction montre avec précision que le cylindre tombe et roule lorsque la bande commence à bouger, non pas parce que le cylindre est simulé, mais parce que RFM-1 a vu beaucoup de choses placées sur de nombreuses bandes transporteuses.
Dans cinq ans, il n’est pas improbable que ce que nous construisons ici soit le seul type de simulateur que l’on puisse utiliser. Pieter Abbeel, Covariant
Cela ne fonctionne que s’il existe le bon type de données sur lesquelles RFM-1 peut s’entraîner, donc contrairement à la plupart des environnements de simulation, il ne peut actuellement pas être généralisé à des objets ou des situations complètement nouveaux. Mais Abbeel estime qu’avec suffisamment de données, une simulation mondiale utile sera possible. Dans cinq ans, il n’est pas improbable que ce que nous construisons ici soit le seul type de simulateur que l’on puisse utiliser. C’est un simulateur plus performant qu’un simulateur construit à partir de zéro avec une vérification des collisions, des éléments finis et tout le reste. Toutes ces choses sont si difficiles à intégrer dans votre moteur physique de quelque manière que ce soit, sans parler du moteur de rendu qui donne l’impression que les choses ressemblent à ce qu’elles sont dans le monde réel, dans un certain sens, nous prenions un raccourci.
Pour que Covariant étende les capacités de RFM-1 vers cette vision à long terme de modèles de base alimentant des milliards de robots à travers le monde, la prochaine étape consiste à lui fournir davantage de données provenant d’une plus grande variété de robots effectuant une plus grande variété de tâches. Nous avons essentiellement construit un moteur d’ingestion de données, explique Abbeel. Si vous souhaitez nous fournir des données d’un type différent, ingérez-les également.
Nous sommes convaincus que ce type de modèle pourrait alimenter toutes sortes de robots, peut-être avec plus de données sur les types de robots et les types de situations dans lesquelles ils pourraient être utilisés. Pieter Abbeel, Covariant
D’une manière ou d’une autre, ce chemin impliquera énormément de données, et ce seront des données que Covariant ne collecte pas actuellement avec sa propre flotte de robots de manipulation d’entrepôt. Donc, si vous êtes, par exemple, une entreprise de robotique humanoïde, quelle est votre incitation à partager toutes les données que vous avez collectées avec Covariant ? Le pitch est de les aider à accéder au monde réel, déclare Peter Chen, co-fondateur de Covariant. Je ne pense pas qu’il y ait vraiment beaucoup d’entreprises qui disposent de l’IA pour rendre leurs robots véritablement autonomes dans un environnement de production. S’ils veulent une IA robuste et puissante qui puisse réellement les aider à entrer dans le monde réel, nous sommes vraiment leur meilleur pari.
L’argument principal de Covariant ici est que s’il est certainement possible pour chaque entreprise de robotique de former ses propres modèles individuellement, les performances pour quiconque essaie de faire de la manipulation ne seraient au moins pas aussi bonnes que l’utilisation d’un modèle qui intègre toutes les données de manipulation que Covariant l’a déjà fait dans RFM-1. Notre objectif à long terme a toujours été d’être une entreprise modèle de base en robotique, explique Chen. Il n’y avait tout simplement pas suffisamment de données, de calculs et d’algorithmes pour en arriver là, mais construire une plate-forme universelle d’IA pour les robots, c’est l’objectif de Covariant depuis le tout début.
À partir des articles de votre site
Articles connexes sur le Web