Hoje, damos destaque a uma nova investigação da Georgia Tech que ajuda a treinar robôs para realizarem tarefas básicas do quotidiano, utilizando gravações egocêntricas de utilizadores de dispositivos Meta Projeto Aria óculos de investigação. Veja o vídeo abaixo, leia a história completa, ou candidate-se ao seu próprio kit de investigação Project Aria.
Imagine ter ajuda para realizar tarefas quotidianas em sua casa, como lavar a roupa, lavar a loiça e fazer reparações. Já usamos ferramentas para ajudar nestas tarefas, como máquinas de lavar roupa, máquinas de lavar louça e berbequins eléctricos. Mas e se pudesse ter uma ferramenta ainda mais poderosa e flexível sob a forma de um robô humanoide que pudesse aprender consigo e acelerar qualquer número de projectos físicos na sua lista de tarefas?
Mesmo que se tenha o sistema de hardware disponível, ensinar um robô a fazer tarefas quotidianas só pode ser conseguido através de um método de recolha de dados lento e desajeitado chamado teleoperação de robôs. Até agora. Ao utilizar o Kit de investigação do Projeto Aria, o Professor Danfei Xu e o Laboratório de Aprendizagem e Raciocínio Robótico em Georgia Tech utilizam os sensores egocêntricos dos óculos Aria para criar aquilo a que chamam "dados humanos" para tarefas que pretendem que um robô humanoide reproduza. Utilizam os dados humanos para reduzir drasticamente a quantidade de dados de teleoperação do robô necessários para treinar a política de um robô - um avanço que poderá um dia tornar os robôs humanóides capazes de aprender qualquer número de tarefas que um humano possa demonstrar.
Kareer teleopera o robot para captar dados de co-treino para o EgoMimic. A teleoperação pode ser difícil de escalar e exigir um esforço humano significativo.
"Tradicionalmente, a recolha de dados para a robótica significa criar dados de demonstração", afirma Simar Kareer, estudante de doutoramento no Escola de Computação Interactiva. "Opera-se as articulações do robô com um controlador para o mover e realizar a tarefa pretendida, e faz-se isto centenas de vezes enquanto se registam os dados dos sensores, para depois treinar os modelos. Isto é lento e difícil. A única forma de quebrar este ciclo é separar a recolha de dados do próprio robô."
Atualmente, os modelos de política dos robôs são treinados com grandes quantidades de dados de demonstração específicos para cada tarefa específica, a um custo elevado. Kareer coloca a hipótese de os dados recolhidos passivamente por muitos investigadores, como os dados captados pelos óculos Aria, poderem ser utilizados para permitir a criação de dados para um conjunto muito mais vasto de tarefas, a fim de criar robôs mais úteis no futuro.
Inspirado por Projeto Aria e Ego-Exo4D que inclui um enorme conjunto de dados egocêntricos com mais de 3 mil horas de gravações de vídeo de actividades da vida quotidiana, Kareer desenvolveu EgoMimicA nova estrutura algorítmica que utiliza dados humanos e dados de robôs para o desenvolvimento de robôs humanóides.
"Quando olhei para o Ego4D, vi um conjunto de dados que é igual a todos os grandes conjuntos de dados de robôs que estamos a tentar recolher, só que é com humanos", explica Kareer. "Basta usar um par de óculos e ir fazer coisas. Não precisa de vir do robô. Deve vir de algo mais escalável e gerado de forma passiva, que somos nós." Na investigação de Kareer, os óculos Aria foram utilizados para criar dados humanos para o treino conjunto da estrutura EgoMimic.
Kareer cria dados humanos de co-treino gravando com os óculos Aria enquanto dobra uma t-shirt.
Os óculos Aria não são apenas utilizados para a recolha de dados humanos na investigação do Georgia Tech. São também utilizados como um componente integral da configuração de funcionamento em tempo real do robô. Os óculos Aria são montados na plataforma do robô humanoide como se fossem um par de olhos e funcionam como um pacote de sensores integrados que permite ao robô percecionar o seu ambiente em tempo real. O Aria Client SDK é utilizado para transmitir os dados dos sensores do Aria diretamente para a política do robô, executada num PC ligado, que por sua vez controla a atuação do robô. A utilização dos óculos Aria, tanto para a recolha de dados como para a conduta de perceção em tempo real, minimiza a diferença de domínio entre o demonstrador humano e o robô, abrindo caminho para a geração de dados humanos à escala para o futuro treino de tarefas robóticas.
Os óculos Aria montados na parte superior do robô fornecem ao sistema dados de sensores que permitem ao robô perceber e interagir com o espaço.
Graças ao EgoMimic, Kareer conseguiu um aumento de 400% no desempenho do seu robô em várias tarefas, em comparação com os métodos anteriores, com apenas 90 minutos de gravações do Aria. O robô também foi capaz de executar com êxito estas tarefas em ambientes nunca antes vistos.
No futuro, os robôs humanóides poderão ser treinados em grande escala utilizando dados egocêntricos para realizar uma variedade de tarefas da mesma forma que os humanos.
"Encaramos o Aria como um investimento na comunidade de investigação", afirma James Fort, gestor de produtos de investigação do Reality Labs na Meta. "Quanto mais a comunidade de pesquisa egocêntrica se padronizar, mais os pesquisadores poderão colaborar. É realmente através de uma escala com a comunidade como esta que podemos começar a resolver problemas maiores sobre como as coisas vão funcionar no futuro."
Kareer apresentará o seu trabalho sobre o EgoMimic na 2025 Conferência Internacional de Engenheiros do IEEE sobre Robótica e Automação (ICRA) em Atlanta.