É complicado fazer com que robôs realizem tarefas em ambientes que nunca viram antes. Normalmente, os pesquisadores precisam treiná-los com novos dados para cada novo local que encontram, o que pode ser extremamente demorado e caro.
Agora, pesquisadores desenvolveram uma série de modelos de IA que ensinam robôs a completar tarefas básicas em novos ambientes sem necessidade de treinamento ou ajustes adicionais. Os cinco modelos de IA, chamados de “modelos de utilidade robótica” (RUMs), permitem que as máquinas realizem cinco tarefas distintas—abrir portas e gavetas, pegar lenços, sacolas e objetos cilíndricos—em ambientes desconhecidos com uma taxa de sucesso de 90%.
A equipe, formada por pesquisadores da Universidade de Nova York, da Meta e da empresa de robótica Hello Robot, espera que suas descobertas tornem mais rápido e fácil ensinar novos truques aos robôs, ao mesmo tempo que os ajuda a funcionar em domínios até então desconhecidos. A abordagem poderia tornar mais acessível e barata a implantação de robôs em nossas casas.
“No passado, as pessoas focavam muito no problema de ‘Como fazer os robôs fazerem de tudo?’, mas não se perguntavam realmente ‘Como fazer os robôs realizarem as tarefas que já sabem fazer—em qualquer lugar?’”, diz Mahi Shafiullah, doutorando na Universidade de Nova York que trabalhou no projeto. “Nós analisamos ‘Como você ensina um robô a, por exemplo, abrir qualquer porta, em qualquer lugar?’”.
Ensinar novas habilidades a robôs geralmente requer uma grande quantidade de dados, que são difíceis de obter. Como os dados de treinamento para robôs precisam ser coletados fisicamente—um processo caro e demorado—, é muito mais difícil construir e escalar bancos de dados de treinamento para robôs do que para tipos de IA como os grandes modelos de linguagem, que são treinados com informações extraídas da internet.
Para acelerar a coleta dos dados essenciais para ensinar uma nova habilidade a um robô, os pesquisadores desenvolveram uma nova versão de uma ferramenta usada em pesquisas anteriores: um iPhone acoplado a uma pinça barata, do tipo normalmente usado para recolher lixo.
A equipe utilizou essa configuração para gravar cerca de 1.000 demonstrações em 40 ambientes diferentes, incluindo casas em Nova York e Jersey City, para cada uma das cinco tarefas—algumas das quais haviam sido coletadas em pesquisas anteriores. Em seguida, treinaram algoritmos de aprendizado com os cinco conjuntos de dados para criar os cinco modelos RUM.
Esses modelos foram implantados no Stretch, um robô composto por uma unidade com rodas, um poste alto e um braço retrátil segurando um iPhone, para testar como ele executava as tarefas em novos ambientes sem ajustes adicionais. Embora tenham atingido uma taxa de conclusão de 74,4%, os pesquisadores conseguiram aumentar esse número para 90% quando tiraram imagens do iPhone e da câmera montada na cabeça do robô, alimentaram-nas no modelo GPT-4o da OpenAI, e perguntaram se a tarefa havia sido concluída com sucesso. Se o GPT-4o dissesse não, eles simplesmente reiniciavam o robô e tentavam novamente.
Um dos grandes desafios enfrentados pelos especialistas em robótica é que treinar e testar seus modelos em ambientes de laboratório não representa o que pode acontecer no mundo real. Portanto, pesquisas que ajudam as máquinas a se comportarem de maneira mais confiável em novos cenários são muito bem-vindas, diz Mohit Shridhar, cientista especializado em manipulação robótica, que não participou do trabalho.
“É ótimo ver que o projeto está sendo avaliado em tantas casas e cozinhas diferentes, porque se você conseguir fazer um robô funcionar de maneira eficiente em uma casa aleatória, esse é o verdadeiro objetivo da robótica”, ele diz.
O projeto pode servir como uma receita geral para construir outros modelos de utilidade robótica para outras tarefas, ajudando a ensinar novas habilidades aos robôs com um esforço mínimo e facilitando para que pessoas que não são especialistas em robótica possam implantar robôs em suas casas no futuro, afirma Shafiullah.
“O sonho pelo qual estamos lutando é que eu possa treinar algo, colocá-lo na internet, e você possa baixá-lo e executá-lo em um robô em sua casa,” ele conclui.
Rhiannon é reporter e escreve para a principal newsletter de tecnologia da MIT Techonology Review, a The Download.