Atualmente, a maioria dos robôs com tecnologia de IA usa câmeras para entender o ambiente e aprender novas tarefas. No entanto, está se tornando mais fácil treinar robôs com som também, ajudando-os a se adaptar a tarefas e ambientes em que a visibilidade é limitada.
Embora a visão seja importante, há tarefas diárias em que o som é realmente mais útil, como ouvir as cebolas chiando no fogão para ver se a panela está na temperatura certa. No entanto, o treinamento de robôs com áudio só foi feito em ambientes de laboratório altamente controlados, e as técnicas ficaram atrás de outros métodos rápidos de ensino de robôs.
Os pesquisadores do Robotics and Embodied AI Lab da Universidade de Stanford se propuseram a mudar isso. Primeiro, eles criaram um sistema para coletar dados de áudio, composto por uma câmera GoPro e uma garra com um microfone, projetado para filtrar o ruído de fundo. Demonstradores humanos usaram a garra para uma variedade de tarefas domésticas, e, em seguida, usaram esses dados para ensinar aos braços robóticos como executar a tarefa por conta própria. Os novos algoritmos de treinamento da equipe ajudam os robôs a coletar pistas dos sinais de áudio para um desempenho mais eficaz.
“Até agora, os robôs têm treinado em vídeos sem som”, diz Zeyi Liu, estudante de doutorado em Stanford e principal autor do estudo. “Mas há muitos dados úteis no áudio.”
Para testar o quanto um robô pode ser mais bem-sucedido se for capaz de “ouvir”, os pesquisadores escolheram quatro tarefas: virar um pãozinho em uma frigideira, apagar um quadro branco, juntar duas tiras de velcro e despejar dados de um copo. Em cada tarefa, os sons fornecem pistas com as quais as câmeras ou os sensores táteis têm dificuldade, como saber se o apagador está em contato adequado com o quadro branco ou se o copo contém dados.
Depois de demonstrar cada tarefa algumas centenas de vezes, a equipe comparou as taxas de sucesso do treinamento com áudio e do treinamento apenas com visão. Os resultados, publicados em um artigo no arXiv que não foi revisado por pares, foram promissores. Ao usar apenas a visão no teste de dados, o robô conseguiu identificar em 27% das vezes se havia dados no copo, mas esse número aumentou para 94% quando o som foi incluído.
Não é a primeira vez que o áudio é usado para treinar robôs, diz Shuran Song, chefe do laboratório que produziu o estudo, mas é um grande passo para fazê-lo em escala: “Estamos facilitando o uso do áudio coletado ‘na natureza’, em vez de nos restringirmos a coletá-lo no laboratório, o que consome mais tempo.”
A pesquisa indica que o áudio pode se tornar uma fonte de dados mais procurada na corrida para treinar robôs com IA. Os pesquisadores estão ensinando os robôs mais rápido do que nunca usando o aprendizado por imitação, mostrando-lhes centenas de exemplos de tarefas sendo realizadas em vez de codificar cada uma delas manualmente. Se o áudio pudesse ser coletado em escala usando dispositivos como o do estudo, isso poderia dar a eles um “sentido” totalmente novo, ajudando-os a se adaptar mais rapidamente a ambientes em que a visibilidade é limitada ou não é útil.
“É seguro dizer que o áudio é a modalidade menos estudada para detecção [em robôs]”, diz Dmitry Berenson, professor associado de robótica da Universidade de Michigan, que não participou do estudo. Isso se deve ao fato de que a maior parte das pesquisas sobre o treinamento de robôs para manipular objetos tem sido feita para tarefas industriais de pegar e colocar, como classificar objetos em caixas. Essas tarefas não se beneficiam muito do som e, em vez disso, dependem de sensores táteis ou visuais. No entanto, à medida que os robôs se expandirem para tarefas em residências, cozinhas e outros ambientes, o áudio se tornará cada vez mais útil, diz Berenson.
Pense em um robô tentando descobrir qual bolsa ou bolso contém um conjunto de chaves, tudo isso com visibilidade limitada. “Talvez, antes mesmo de tocar nas chaves, você as ouça tilintando”, diz Berenson. “Essa é uma dica de que as chaves estão naquele bolso e não em outros.”
Ainda assim, o áudio tem limites. A equipe ressalta que o som não será tão útil com os chamados objetos macios ou flexíveis, como roupas, que não criam tanto áudio utilizável. Os robôs também tiveram dificuldades para filtrar o áudio de seus próprios ruídos motores durante as tarefas, já que esse ruído não estava presente nos dados de treinamento produzidos por humanos. Para resolver esse problema, os pesquisadores precisaram adicionar sons de robôs – zumbidos, ruídos e ruídos de atuadores – aos conjuntos de treinamento para que os robôs pudessem aprender a sintonizá-los.
A próxima etapa, diz Liu, é verificar o quanto os modelos podem melhorar com mais dados, o que pode significar adicionar mais microfones, coletar áudio espacial e incorporar microfones em outros tipos de dispositivos de coleta de dados.