Aujourd'hui, nous mettons en lumière une nouvelle étude réalisée par Georgia Tech qui permet d'entraîner les robots à effectuer des tâches quotidiennes de base à l'aide d'enregistrements égocentriques effectués par les porteurs du système Meta. Projet Aria lunettes de recherche. Regardez la vidéo ci-dessous, lisez l'article complet, ou demandez votre propre kit de recherche du projet Aria.
Imaginez que vous puissiez bénéficier d'une aide pour accomplir les tâches quotidiennes dans votre maison, comme faire la lessive, la vaisselle et les réparations. Nous utilisons déjà des outils pour nous aider dans ces tâches, comme les lave-linge, les lave-vaisselle et les perceuses électriques. Mais que se passerait-il si vous pouviez disposer d'un outil encore plus puissant et flexible sous la forme d'un robot humanoïde capable d'apprendre de vous et d'accélérer n'importe quel projet physique figurant sur votre liste de choses à faire ?
Même si vous disposiez du matériel nécessaire, apprendre à un robot à effectuer des tâches quotidiennes ne peut se faire qu'au moyen d'une méthode de collecte de données lente et encombrante, appelée téléopération robotique. Jusqu'à aujourd'hui. En utilisant le Kit de recherche du projet AriaLe professeur Danfei Xu et le Laboratoire d'apprentissage et de raisonnement robotique à Georgia Tech utilisent les capteurs égocentriques des lunettes Aria pour créer ce qu'ils appellent des "données humaines" pour les tâches qu'ils veulent qu'un robot humanoïde reproduise. Ils utilisent les données humaines pour réduire considérablement la quantité de données de téléopération nécessaires pour former la politique d'un robot - une avancée qui pourrait un jour rendre les robots humanoïdes capables d'apprendre n'importe quel nombre de tâches qu'un humain pourrait démontrer.
Kareer téléopère le robot pour capturer des données de coformation pour EgoMimic. La téléopération peut être difficile à mettre à l'échelle et nécessiter un effort humain important.
"Traditionnellement, la collecte de données pour la robotique implique la création de données de démonstration", explique Simar Kareer, doctorant au sein de l'unité de recherche en robotique de Georgia Tech. École d'informatique interactive. "Vous actionnez les articulations du robot à l'aide d'un contrôleur pour le déplacer et accomplir la tâche que vous souhaitez, et vous faites cela des centaines de fois tout en enregistrant les données des capteurs, puis vous entraînez vos modèles. C'est lent et difficile. Le seul moyen de rompre ce cycle est de séparer la collecte des données du robot lui-même."
Aujourd'hui, les modèles de politique des robots sont formés à l'aide de grandes quantités de données de démonstration ciblées, spécifiques à chaque tâche étroite, à un coût élevé. Kareer émet l'hypothèse que les données collectées passivement par de nombreux chercheurs, comme les données capturées par les lunettes Aria, pourraient être utilisées pour permettre la création de données pour un ensemble beaucoup plus large de tâches afin de créer des robots plus généralement utiles à l'avenir.
Inspiré par Projet Aria et Ego-Exo4D qui comprend un ensemble de données égocentriques massives de plus de 3 000 heures d'enregistrements vidéo d'activités de la vie quotidienne, Kareer a développé EgoMimicUn nouveau cadre algorithmique qui utilise les données humaines et les données du robot pour le développement de robots humanoïdes.
"Lorsque j'ai regardé Ego4D, j'ai vu un ensemble de données identique à tous les grands ensembles de données robotiques que nous essayons de collecter, sauf qu'il s'agit d'êtres humains", explique M. Kareer. "Il suffit de porter une paire de lunettes et de faire des choses. Il n'est pas nécessaire que les données proviennent du robot. Elles doivent provenir de quelque chose de plus évolutif et de plus passif, c'est-à-dire de nous. Dans la recherche de Kareer, les lunettes Aria ont été utilisées pour créer des données humaines afin de coformer le cadre EgoMimic.
Kareer crée des données humaines de coformation en enregistrant avec les lunettes Aria tout en pliant un t-shirt.
Les lunettes Aria ne sont pas seulement utilisées pour la collecte de données humaines dans le cadre des recherches de Georgia Tech. Elles font également partie intégrante de la configuration des opérations en temps réel du robot. Les lunettes Aria sont montées sur la plateforme du robot humanoïde comme une paire d'yeux et servent de capteur intégré permettant au robot de percevoir son environnement en temps réel. Le SDK client Aria est utilisé pour transmettre les données des capteurs Aria directement à la politique du robot, exécutée sur un PC connecté, qui à son tour contrôle l'actionnement du robot. L'utilisation des lunettes Aria pour la collecte de données et le pipeline de perception en temps réel minimise l'écart de domaine entre le démonstrateur humain et le robot, ce qui ouvre la voie à la génération de données humaines à grande échelle pour la formation aux tâches robotiques futures.
Les lunettes Aria montées sur le dessus du robot fournissent au système des données de capteurs qui permettent au robot de percevoir l'espace et d'interagir avec lui.
Grâce à EgoMimic, Kareer a augmenté de 400% les performances de son robot dans diverses tâches par rapport aux méthodes précédentes, avec seulement 90 minutes d'enregistrements Aria. Le robot a également été en mesure d'effectuer avec succès ces tâches dans des environnements inédits.
À l'avenir, les robots humanoïdes pourraient être formés à grande échelle à l'aide de données égocentriques afin d'effectuer une variété de tâches de la même manière que les humains.
"Nous considérons Aria comme un investissement dans la communauté des chercheurs", déclare James Fort, chef de produit Reality Labs Research chez Meta. "Plus la communauté de recherche égocentrique se standardise, plus les chercheurs pourront collaborer. C'est vraiment en s'appuyant sur la communauté de cette manière que nous pouvons commencer à résoudre des problèmes plus importants sur la façon dont les choses vont fonctionner à l'avenir.
Kareer présentera son article sur EgoMimic lors de la conférence de l 2025 Conférence internationale des ingénieurs de l'IEEE sur la robotique et l'automatisation (ICRA) à Atlanta.