Publié le - Laisser un commentaire

EgoMimic : Un doctorant de Georgia Tech utilise les lunettes de recherche du projet Aria pour former des robots humanoïdes

Aujourd'hui, nous mettons en lumière une nouvelle étude réalisée par Georgia Tech qui permet d'entraîner les robots à effectuer des tâches quotidiennes de base à l'aide d'enregistrements égocentriques effectués par les porteurs du système Meta. Projet Aria lunettes de recherche. Regardez la vidéo ci-dessous, lisez l'article complet, ou demandez votre propre kit de recherche du projet Aria.

Imaginez que vous puissiez bénéficier d'une aide pour accomplir les tâches quotidiennes dans votre maison, comme faire la lessive, la vaisselle et les réparations. Nous utilisons déjà des outils pour nous aider dans ces tâches, comme les lave-linge, les lave-vaisselle et les perceuses électriques. Mais que se passerait-il si vous pouviez disposer d'un outil encore plus puissant et flexible sous la forme d'un robot humanoïde capable d'apprendre de vous et d'accélérer n'importe quel projet physique figurant sur votre liste de choses à faire ?

Même si vous disposiez du matériel nécessaire, apprendre à un robot à effectuer des tâches quotidiennes ne peut se faire qu'au moyen d'une méthode de collecte de données lente et encombrante, appelée téléopération robotique. Jusqu'à aujourd'hui. En utilisant le Kit de recherche du projet AriaLe professeur Danfei Xu et le Laboratoire d'apprentissage et de raisonnement robotique à Georgia Tech utilisent les capteurs égocentriques des lunettes Aria pour créer ce qu'ils appellent des "données humaines" pour les tâches qu'ils veulent qu'un robot humanoïde reproduise. Ils utilisent les données humaines pour réduire considérablement la quantité de données de téléopération nécessaires pour former la politique d'un robot - une avancée qui pourrait un jour rendre les robots humanoïdes capables d'apprendre n'importe quel nombre de tâches qu'un humain pourrait démontrer.

Kareer téléopère le robot pour capturer des données de coformation pour EgoMimic. La téléopération peut être difficile à mettre à l'échelle et nécessiter un effort humain important.

"Traditionnellement, la collecte de données pour la robotique implique la création de données de démonstration", explique Simar Kareer, doctorant au sein de l'unité de recherche en robotique de Georgia Tech. École d'informatique interactive. "Vous actionnez les articulations du robot à l'aide d'un contrôleur pour le déplacer et accomplir la tâche que vous souhaitez, et vous faites cela des centaines de fois tout en enregistrant les données des capteurs, puis vous entraînez vos modèles. C'est lent et difficile. Le seul moyen de rompre ce cycle est de séparer la collecte des données du robot lui-même."

Aujourd'hui, les modèles de politique des robots sont formés à l'aide de grandes quantités de données de démonstration ciblées, spécifiques à chaque tâche étroite, à un coût élevé. Kareer émet l'hypothèse que les données collectées passivement par de nombreux chercheurs, comme les données capturées par les lunettes Aria, pourraient être utilisées pour permettre la création de données pour un ensemble beaucoup plus large de tâches afin de créer des robots plus généralement utiles à l'avenir.

Inspiré par Projet Aria et Ego-Exo4D qui comprend un ensemble de données égocentriques massives de plus de 3 000 heures d'enregistrements vidéo d'activités de la vie quotidienne, Kareer a développé EgoMimicUn nouveau cadre algorithmique qui utilise les données humaines et les données du robot pour le développement de robots humanoïdes.

"Lorsque j'ai regardé Ego4D, j'ai vu un ensemble de données identique à tous les grands ensembles de données robotiques que nous essayons de collecter, sauf qu'il s'agit d'êtres humains", explique M. Kareer. "Il suffit de porter une paire de lunettes et de faire des choses. Il n'est pas nécessaire que les données proviennent du robot. Elles doivent provenir de quelque chose de plus évolutif et de plus passif, c'est-à-dire de nous. Dans la recherche de Kareer, les lunettes Aria ont été utilisées pour créer des données humaines afin de coformer le cadre EgoMimic.

Kareer crée des données humaines de coformation en enregistrant avec les lunettes Aria tout en pliant un t-shirt.

Les lunettes Aria ne sont pas seulement utilisées pour la collecte de données humaines dans le cadre des recherches de Georgia Tech. Elles font également partie intégrante de la configuration des opérations en temps réel du robot. Les lunettes Aria sont montées sur la plateforme du robot humanoïde comme une paire d'yeux et servent de capteur intégré permettant au robot de percevoir son environnement en temps réel. Le SDK client Aria est utilisé pour transmettre les données des capteurs Aria directement à la politique du robot, exécutée sur un PC connecté, qui à son tour contrôle l'actionnement du robot. L'utilisation des lunettes Aria pour la collecte de données et le pipeline de perception en temps réel minimise l'écart de domaine entre le démonstrateur humain et le robot, ce qui ouvre la voie à la génération de données humaines à grande échelle pour la formation aux tâches robotiques futures.

Les lunettes Aria montées sur le dessus du robot fournissent au système des données de capteurs qui permettent au robot de percevoir l'espace et d'interagir avec lui.

Grâce à EgoMimic, Kareer a augmenté de 400% les performances de son robot dans diverses tâches par rapport aux méthodes précédentes, avec seulement 90 minutes d'enregistrements Aria. Le robot a également été en mesure d'effectuer avec succès ces tâches dans des environnements inédits.

À l'avenir, les robots humanoïdes pourraient être formés à grande échelle à l'aide de données égocentriques afin d'effectuer une variété de tâches de la même manière que les humains.

"Nous considérons Aria comme un investissement dans la communauté des chercheurs", déclare James Fort, chef de produit Reality Labs Research chez Meta. "Plus la communauté de recherche égocentrique se standardise, plus les chercheurs pourront collaborer. C'est vraiment en s'appuyant sur la communauté de cette manière que nous pouvons commencer à résoudre des problèmes plus importants sur la façon dont les choses vont fonctionner à l'avenir.

Kareer présentera son article sur EgoMimic lors de la conférence de l 2025 Conférence internationale des ingénieurs de l'IEEE sur la robotique et l'automatisation (ICRA) à Atlanta.

Publié le - Laisser un commentaire

Présentation de l'Aria Gen 2 : débloquer de nouvelles recherches sur la perception des machines, l'IA contextuelle, la robotique, etc.

Depuis son lancement en 2020, Projet Aria a permis à des chercheurs du monde entier de faire progresser l'état de l'art en matière de perception des machines et d'IA, grâce à l'accès à du matériel de recherche de pointe et à des logiciels libres. ensembles de donnéesNous avons mis au point de nouveaux produits, modèles et outils. Aujourd'hui, nous sommes heureux d'annoncer la prochaine étape de ce voyage : l'introduction des lunettes Aria Gen 2. Cette nouvelle génération de matériel ouvrira de nouvelles possibilités dans un large éventail de domaines de recherche, notamment la perception des machines, l'IA égocentrique et contextuelle, et la robotique.

0:00 / 0:00

Pour les chercheurs qui cherchent à savoir comment les systèmes d'IA peuvent mieux comprendre le monde d'un point de vue humainLes lunettes Aria Gen 2 ajoutent un nouvel ensemble de capacités à la plateforme Aria. Elles comprennent un certain nombre d'avancées que l'on ne trouve sur aucun autre dispositif disponible aujourd'hui, et l'accès à ces technologies révolutionnaires permettra aux chercheurs de repousser les limites du possible.

Par rapport à Aria Gen 1, la proposition de valeur unique d'Aria Gen 2 comprend les éléments suivants :

  • Ensemble de capteurs à la pointe de la technologie : La suite de capteurs améliorée comprend une caméra RVB, des caméras SLAM 6DOF, des caméras de suivi des yeux, des microphones spatiaux, des IMU, un baromètre, un magnétomètre et un GNSS. Par rapport à son prédécesseur, Aria Gen 1, la nouvelle génération introduit deux capteurs innovants intégrés dans la plaquette nasale : un capteur PPG pour mesurer la fréquence cardiaque et un microphone de contact pour distinguer la voix du porteur de celle des passants.
  • Perception de la machine sur l'appareil et à très faible consommation d'énergie : Le SLAM, le suivi des yeux, le suivi des mains et la reconnaissance vocale sont tous traités sur l'appareil à l'aide du silicium personnalisé de Meta.
  • Facilité d'utilisation tout au long de la journée : Les lunettes Aria Gen 2 peuvent être utilisées pendant six à huit heures en continu, pèsent environ 75 grammes et sont dotées de branches pliables pour faciliter leur transport.
  • Interaction par le biais de l'audio : Les utilisateurs bénéficient d'un retour d'information audio grâce à des haut-parleurs ouverts à réduction de force, les meilleurs de leur catégorie, ce qui permet le prototypage de systèmes dans la boucle de l'utilisateur.

Notre un voyage d'une dizaine d'années pour créer la prochaine plateforme informatique a conduit au développement de ces technologies critiques. Chez Meta, les équipes de Reality Labs Research et du laboratoire FAIR AI les utiliseront pour faire progresser notre vision de la recherche à long terme.. En les mettant à la disposition des laboratoires de recherche universitaires et commerciaux dans le cadre du projet Aria, nous ferons progresser la recherche ouverte et la compréhension par le public d'un ensemble clé de technologies qui, selon nous, contribueront à façonner l'avenir de l'informatique et de l'intelligence artificielle.

La recherche ouverte rendue possible par le projet Aria depuis 2020 a déjà donné lieu à des travaux importants, notamment la création d'outils à code source ouvert largement utilisés dans le monde universitaire et dans l'industrie. Le projet Ensemble de données Ego-Exo4DLa vision artificielle, collectée à l'aide de la première génération de lunettes Aria, est devenue un outil fondamental pour la vision par ordinateur moderne et le domaine en pleine expansion de la robotique. Des chercheurs de Georgia Tech ont récemment montré comment le kit de recherche Aria peut être utilisé dans le domaine de la vision par ordinateur. aider les robots humanoïdes à apprendre à aider les gens à la maison, tandis que les équipes de BMW l'a utilisé pour étudier comment intégrer des systèmes de réalité augmentée et virtuelle dans les véhicules intelligents.

Aria permet également le développement de nouvelles technologies pour l'accessibilité. Les lunettes Aria de première génération ont été utilisées par L'Université Carnegie Mellon dans son projet NavCogqui visait à mettre au point des technologies pour aider les personnes aveugles et malvoyantes à naviguer à l'intérieur des bâtiments. S'appuyant sur cette base, les lunettes Aria Gen 2 sont maintenant utilisées par EnvisagerEnvision est une société qui se consacre à la création de solutions pour les personnes aveugles ou malvoyantes. Envision étudie la possibilité d'intégrer ses Allié L'assistant AI et l'audio spatial utilisent les dernières lunettes Aria Gen 2 pour améliorer la navigation en intérieur et les expériences d'accessibilité.

0:00 / 0:00

Envision a utilisé les capacités SLAM de l'Aria Gen 2, ainsi que des fonctions audio spatiales via des haut-parleurs intégrés, pour aider les personnes aveugles et malvoyantes à naviguer de manière transparente dans les environnements intérieurs. Cette utilisation innovante des technologies, qui en est encore à la phase exploratoire et de recherche, illustre la manière dont les chercheurs peuvent exploiter les lunettes Aria Gen 2 pour prototyper des expériences d'IA basées sur des observations égocentriques. Les capteurs avancés et les capacités de perception de la machine sur l'appareil, y compris le SLAM, le suivi des yeux, le suivi des mains et les interactions audio, les rendent également idéales pour la collecte de données dans le cadre de la recherche et des applications robotiques.

Au cours des prochains mois, nous donnerons plus de détails sur le calendrier de mise à disposition des appareils aux partenaires. Les chercheurs intéressés par l'accès à l'Aria Gen 2 peuvent s'inscrire pour recevoir les mises à jour. Nous sommes impatients de voir comment les chercheurs exploiteront Aria Gen 2 pour ouvrir la voie à de futures innovations qui façonneront la prochaine plateforme informatique.

Publié le - Laisser un commentaire

Inside Aria Gen 2: Explore the Cutting-Edge Tech Behind the Device

Earlier this year, we announced our latest research glasses, Aria Gen 2, marking the continuation of Project Aria’s mission to enable researchers across the world to advance the state of the art in machine perception, contextual AI, and robotics through access to cutting-edge research hardware and open source datasets, models, and tooling. Today, we’re excited to share more about the technology inside Aria Gen 2. This includes an in-depth overview of the form factor, audio capabilities, battery life, upgraded cameras and sensors, on-device compute, and more.

What Is Aria Gen 2?

Aria Gen 2 is a wearable device that combines the latest advancements in computer vision, machine learning, and sensor technology. Aria Gen 2’s compact form factor and lightweight design make it an ideal choice for researchers who need to collect data or build prototypes in a variety of settings. The glasses contain a number of improvements when compared to Aria Gen 1, its research predecessor, announced back in 2020.

Aria Gen 2: Advancements and Features

The transition from Aria Gen 1 to Gen 2 marks a significant leap in wearable technology, offering enhanced features and capabilities that cater to a broader range of applications and user needs. Below, we explore the key differences and improvements introduced in Aria Gen 2.

1. Wearability

Aria Gen 2 boasts superior wearability, characterized by enhanced comfort and fit, while accommodating a wider range of face morphologies and a rich sensor suite for research. The glasses maintain a lightweight design (weighing in at 74 – 76g, depending on size) and now include folding arms for easier storage and transport for everyday use. To ensure each wearer has an optimal physical and functional fit, we’ve introduced eight size variations of the device—accounting for a number of human factors including head breadth and nose bridge variation.

Eight size variations of our Aria Gen 2 devices.

2. Computer Vision (CV) Camera Enhancements

High Dynamic Range (HDR): Aria Gen 2’s global shutter camera sensor offers a high dynamic range of 120 dB, compared to the 70 dB range in Gen 1. This allows for superior computer vision tasks across diverse lighting conditions.

0:00 / 0:00

The video illustrates that the CV camera is able to capture highly dynamic scenes with an LED light’s filament being resolved along with the rest of the details from the scene.

Wide Field of View (FOV): Aria Gen 2 is equipped with four computer vision (CV) cameras, doubling the number of CV cameras in Gen 1, to provide a wider field of view and enable advanced 3D hand and object tracking.

Stereo Overlap: The stereo overlap in Gen 2 is increased to 80° from Gen 1’s 35°, facilitating stereo-based foundation models that enhance depth perception and spatial awareness.

0:00 / 0:00

The example here illustrates how the increased stereo overlap enables methods such as NVIDIA’s FoundationStereo to generate depth maps based on rectified stereo images. The depth maps can be fused to generate geometric reconstructions of the scene only using Aria Gen 2’s stereo pair data.

3. New Sensor Integrations

Ambient Light Sensor (ALS): Aria Gen 2 includes a calibrated ALS, enabling better exposure control algorithms and unlocking new capabilities at low frame rates. The ALS’s ultraviolet mode can be used to distinguish between indoor and outdoor lighting as illustrated by the video.

0:00 / 0:00

Contact Microphone: Aria Gen 2 includes a contact microphone embedded in the nosepad of the device, enhancing audio capture in noisy environments.

0:00 / 0:00

The video showcases a wearer in a wind tunnel to simulate a windy scenario where the contact microphone is able to pick up the wearer’s whisper when the acoustic microphones cannot.

Heart Rate: Aria Gen 2 includes a photoplethysmography (PPG) sensor embedded in the nosepad of the device, that enables estimation of heart rate of the person wearing the device.

4. Device Time Alignment

Aria Gen 2 has an onboard hardware solution that utilizes Sub-GHz radio technology to broadcast timing information, enabling precise time alignment with other Aria Gen 2 devices or compatible devices that support Sub-GHz radio. This technology achieves time alignment with an accuracy of sub-millisecond, marking a significant improvement over the software-based alignment of Gen 1.

0:00 / 0:00

The video shows how Aria Gen 2 uses device time alignment for tasks like writing from distributed captures from two Aria Gen 2 devices.

5. On-device Realtime Machine Perception (MP) Signals

Aria Gen 2 features advanced on-device machine perception algorithms that run on Meta’s energy-efficient custom coprocessor. These cutting-edge capabilities enable the device to generate precise and accurate data, tracking how we interact with our surroundings.

Visual Inertial Odometry (VIO)

One of the key features of Aria Gen 2 is its ability to track the glasses in six degrees of freedom (6DOF) within a spatial frame of reference using Visual Inertial Odometry (VIO). This allows for seamless navigation and mapping of the environment, opening up new possibilities for research in contextual AI and robotics.

Eye Tracking

Aria Gen 2 also boasts an advanced camera-based eye tracking system that tracks the wearer’s gaze with unparalleled accuracy. This system provides a wealth of information, including: gaze per eye, vergence point, blink detection, pupil center estimation, pupil diameter, corneal center, etc.

These advanced signals enable a deeper understanding of the wearer’s visual attention and intentions, unlocking new possibilities for human-computer interaction.

Hand Tracking

Aria Gen 2 also features a hand tracking solution that tracks the wearer’s hand in 3D space. This produces articulated hand-joint poses in the device frame of reference, facilitating accurate hand annotations for datasets and enabling applications such as dexterous robot hand manipulation that require high precision.

0:00 / 0:00

Demonstration of Aria Gen 2’s sensors and machine perception capabilities, as well as off-device algorithms built on them.

The Future of Aria Is Here: Stay Informed

Aria Gen 2 glasses pave the way for future innovations that will define the next computing platform. Applications to work with Aria Gen 2 will open later this year, and researchers who are interested in staying informed can join the Aria Gen 2 interest list. Meanwhile, applications for Aria Research Kit with Aria Gen 1 glasses are still being accepted on a rolling basis—apply now to get started immediately.

Join us at CVPR 2025 in Nashville, Tennessee, this June, where the team will showcase Aria Gen 2 glasses through interactive demos. Visit the Meta booth to experience the latest advancements and learn more about the innovative features of Aria Gen 2.