Vandaag belichten we nieuw onderzoek van Georgia Tech dat robots helpt om alledaagse basistaken uit te voeren met behulp van egocentrische opnames van dragers van Meta's Project Aria onderzoeksbril. Bekijk de video hieronder, lees het volledige verhaal of uw eigen Project Aria-onderzoekspakket aanvragen.
Stel je voor dat je hulp zou hebben bij alledaagse taken in huis, zoals de was doen, afwassen en reparaties uitvoeren. We gebruiken al hulpmiddelen om te helpen bij deze taken, zoals wasmachines, vaatwassers en elektrische boormachines. Maar wat als je een nog krachtiger en flexibeler hulpmiddel zou hebben in de vorm van een humanoïde robot die van jou zou kunnen leren en een aantal fysieke projecten op je takenlijst zou kunnen versnellen?
Zelfs als je het beschikbare hardwaresysteem zou hebben, kan het aanleren van alledaagse taken aan een robot alleen worden bereikt via een langzame en onhandige gegevensverzamelingsmethode die robot teleoperatie wordt genoemd. Tot nu. Door gebruik te maken van de Project Aria-onderzoekspakketProfessor Danfei Xu en de Laboratorium voor robotisch leren en redeneren op Georgia Tech gebruiken de egocentrische sensoren op de Aria-bril om wat zij noemen "menselijke gegevens" te creëren voor taken die ze een humanoïde robot willen laten nabootsen. Ze gebruiken menselijke gegevens om de hoeveelheid gegevens over robot-teleoperatie die nodig zijn om het beleid van een robot te trainen drastisch te verminderen - een doorbraak die er ooit voor zou kunnen zorgen dat humanoïde robots in staat zijn om elk aantal taken te leren die een mens zou kunnen uitvoeren.
Kareer bedient de robot op afstand om co-traininggegevens vast te leggen voor EgoMimic. Telebesturing kan moeilijk op te schalen zijn en vereist aanzienlijke menselijke inspanning.
"Traditioneel betekent het verzamelen van gegevens voor robotica het creëren van demonstratiegegevens", zegt Simar Kareer, een promovendus in Georgia Tech's School voor interactieve informatica. "Je bedient de gewrichten van de robot met een controller om hem te bewegen en de taak uit te voeren die je wilt, en je doet dit honderden keren terwijl je sensorgegevens registreert, waarna je je modellen traint. Dit is langzaam en moeilijk. De enige manier om die cyclus te doorbreken is om het verzamelen van gegevens los te koppelen van de robot zelf."
Vandaag de dag worden robotbeleidsmodellen getraind met grote hoeveelheden gerichte demonstratiegegevens die specifiek zijn voor elke smalle taak, tegen hoge kosten. Kareer veronderstelt dat passief verzamelde gegevens van veel onderzoekers, zoals de gegevens die worden vastgelegd door de Aria-bril, in plaats daarvan kunnen worden gebruikt om gegevens te creëren voor een veel bredere reeks taken om in de toekomst meer algemeen bruikbare robots te maken.
Geïnspireerd door Project Aria en Ego-Exo4D die een enorme egocentrische dataset van meer dan 3K uur aan video-opnamen van dagelijkse activiteiten bevat, ontwikkelde Kareer EgoMimicEen nieuw algoritmisch raamwerk dat gebruik maakt van menselijke gegevens en robotgegevens voor de ontwikkeling van humanoïde robots.
"Toen ik naar Ego4D keek, zag ik een dataset die hetzelfde is als alle grote robotdatasets die we proberen te verzamelen, maar dan met mensen", legt Kareer uit. "Je draagt gewoon een bril en je gaat dingen doen. Het hoeft niet van de robot te komen. Het moet komen van iets dat meer schaalbaar en passief gegenereerd is, en dat zijn wij." In Kareer's onderzoek werd de Aria-bril gebruikt om menselijke gegevens te creëren voor co-training van het EgoMimic framework.
Kareer creëert co-training menselijke gegevens door op te nemen met de Aria-bril terwijl ze een t-shirt vouwt.
De Aria-bril wordt niet alleen gebruikt voor het verzamelen van menselijke gegevens in het onderzoek van Georgia Tech. Ze worden ook gebruikt als integraal onderdeel van de realtime besturingsopstelling van de robot. De Aria-bril wordt op het humanoïde robotplatform gemonteerd als een paar ogen en dient als een geïntegreerd sensorpakket waarmee de robot zijn omgeving in realtime kan waarnemen. De Aria Client SDK wordt gebruikt om de sensorgegevens van Aria rechtstreeks te streamen naar het beleid van de robot, dat draait op een aangesloten pc, die op zijn beurt de robotbesturing regelt. Het gebruik van een Aria-bril voor zowel de gegevensverzameling als de realtime waarnemingspijplijn minimaliseert de domeinkloof tussen de menselijke demonstrant en de robot, waardoor de weg wordt vrijgemaakt voor het genereren van menselijke gegevens op schaal voor toekomstige robotica-taaktraining.
Een Aria-bril bovenop de robot voorziet het systeem van sensorgegevens waarmee de robot de ruimte kan waarnemen en ermee kan interageren.
Dankzij EgoMimic bereikte Kareer een toename van 400% in de prestaties van zijn robot bij verschillende taken in vergelijking met eerdere methoden met slechts 90 minuten aan Aria-opnames. De robot was ook in staat om deze taken met succes uit te voeren in voorheen ongeziene omgevingen.
In de toekomst zouden humanoïde robots op schaal kunnen worden getraind met egocentrische gegevens om verschillende taken op dezelfde manier uit te voeren als mensen.
"We zien Aria als een investering in de onderzoeksgemeenschap," zegt James Fort, een Reality Labs Research Product Manager bij Meta. "Hoe meer de egocentrische onderzoeksgemeenschap standaardiseert, hoe meer onderzoekers kunnen samenwerken. Het is echt door op deze manier met de gemeenschap samen te werken dat we kunnen beginnen met het oplossen van grotere problemen rond hoe dingen in de toekomst zullen werken."
Kareer zal zijn paper over EgoMimic presenteren op de 2025 Internationale Conferentie van IEEE-ingenieurs over Robotica en Automatisering (ICRA) in Atlanta.