Astăzi, evidențiem o nouă cercetare din Georgia Tech care ajută la antrenarea roboților pentru a efectua sarcini zilnice de bază folosind înregistrări egocentrice de la purtătorii de Meta's Proiectul Aria ochelari de cercetare. Urmăriți videoclipul de mai jos, citiți articolul complet sau aplicați pentru propriul kit de cercetare Project Aria.
Imaginați-vă că aveți nevoie de ajutor pentru îndeplinirea sarcinilor de zi cu zi în casă, cum ar fi spălatul rufelor, spălatul vaselor și efectuarea de reparații. Folosim deja instrumente care ne ajută la îndeplinirea acestor sarcini, cum ar fi mașinile de spălat rufe, mașinile de spălat vase și burghiile electrice. Dar cum ar fi dacă ați putea avea un instrument și mai puternic și mai flexibil sub forma unui robot umanoid care ar putea învăța de la dvs. și ar putea accelera orice număr de proiecte fizice de pe lista dvs. de sarcini?
Chiar dacă ai avea la dispoziție un sistem hardware, învățarea unui robot să îndeplinească sarcini zilnice se poate realiza doar printr-o metodă lentă și greoaie de colectare a datelor, numită teleoperare robotică. Până acum. Prin utilizarea Kit de cercetare Project Aria, profesorul Danfei Xu și Laboratorul de învățare și raționament robotic la Georgia Tech folosesc senzorii egocentrici de pe ochelarii Aria pentru a crea ceea ce ei numesc "date umane" pentru sarcinile pe care doresc să le reproducă un robot umanoid. Aceștia folosesc datele umane pentru a reduce dramatic cantitatea de date de teleoperare a robotului necesare pentru a antrena politica unui robot - o descoperire care ar putea într-o zi să facă roboții umanoizi capabili să învețe orice număr de sarcini pe care un om le-ar putea demonstra.
Kareer teleopera robotul pentru a capta date de co-antrenament pentru EgoMimic. Teleoperarea poate fi dificil de extins și necesită un efort uman semnificativ.
"În mod tradițional, colectarea de date pentru robotică înseamnă crearea de date demonstrative", spune Simar Kareer, doctorand la Georgia Tech. Școala de informatică interactivă. "Acționați articulațiile robotului cu ajutorul unui controler pentru a-l mișca și a realiza sarcina dorită și faceți acest lucru de sute de ori, înregistrând în același timp datele senzorilor, apoi vă antrenați modelele. Acest lucru este lent și dificil. Singura modalitate de a rupe acest ciclu este de a detașa colectarea de date de robotul în sine."
În prezent, modelele de politici ale roboților sunt antrenate cu cantități mari de date demonstrative specifice fiecărei sarcini înguste, la un cost ridicat. Kareer emite ipoteza că datele colectate pasiv de la mulți cercetători, precum datele capturate de ochelarii Aria, ar putea fi utilizate în schimb pentru a permite crearea de date pentru un set mult mai larg de sarcini, pentru a crea roboți mai utili în general în viitor.
Inspirat de Proiectul Aria și Ego-Exo4D care include un set masiv de date egocentrice de peste 3.000 de ore de înregistrări video ale activităților din viața de zi cu zi, Kareer a dezvoltat EgoMimic, un nou cadru algoritmic care utilizează datele umane și datele robotului pentru dezvoltarea roboților umanoizi.
"Când m-am uitat la Ego4D, am văzut un set de date care este la fel ca toate seturile de date cu roboți mari pe care încercăm să le colectăm, doar că este cu oameni", explică Kareer. "Purtați doar o pereche de ochelari și vă duceți să faceți lucruri. Nu trebuie să vină de la robot. Ar trebui să vină de la ceva mai scalabil și generat pasiv, adică de la noi." În cadrul cercetării lui Kareer, ochelarii Aria au fost folosiți pentru a crea date umane pentru co-antrenarea cadrului EgoMimic.
Kareer creează date umane de co-formare prin înregistrarea cu ochelarii Aria în timp ce împăturește un tricou.
Ochelarii Aria nu sunt folosiți doar pentru colectarea datelor umane în cadrul cercetărilor de la Georgia Tech. Aceștia sunt, de asemenea, utilizați ca parte integrantă a configurației de funcționare în timp real a robotului. Ochelarii Aria sunt montați pe platforma robotului umanoid la fel ca o pereche de ochi și servesc ca un pachet integrat de senzori care permite robotului să perceapă mediul înconjurător în timp real. Aria Client SDK este utilizat pentru a transmite datele senzorilor Aria direct în politica robotului, care rulează pe un PC atașat, care la rândul său controlează acționarea robotului. Utilizarea ochelarilor Aria atât pentru colectarea datelor, cât și pentru conducta de percepție în timp real minimizează decalajul de domeniu dintre demonstratorul uman și robot, deschizând calea pentru generarea de date la scară umană pentru formarea viitoarelor sarcini robotice.
Ochelarii Aria montați pe partea superioară a robotului furnizează sistemului date senzoriale care permit robotului să perceapă și să interacționeze cu spațiul.
Datorită EgoMimic, Kareer a obținut o creștere de 400% a performanței robotului său în diverse sarcini față de metodele anterioare, cu doar 90 de minute de înregistrări Aria. De asemenea, robotul a reușit să îndeplinească cu succes aceste sarcini în medii nevăzute anterior.
În viitor, roboții umanoizi ar putea fi antrenați la scară largă folosind date egocentrice pentru a îndeplini o varietate de sarcini în același mod în care o fac oamenii.
"Privim Aria ca pe o investiție în comunitatea de cercetare", spune James Fort, un manager de produs Reality Labs Research la Meta. "Cu cât comunitatea de cercetare egocentrică se standardizează mai mult, cu atât mai mulți cercetători vor putea colabora. Este într-adevăr prin scalarea cu comunitatea ca aceasta că putem începe să rezolvăm probleme mai mari în jurul modului în care lucrurile vor funcționa în viitor."
Kareer își va prezenta lucrarea privind EgoMimic la 2025 Conferința internațională IEEE a inginerilor privind robotica și automatizarea (ICRA) în Atlanta.