Aprendizado auditivo tornará robôs mais úteis

Banner indicando a posição do botão de download do artigo em formato pdf

Atualmente, a maioria dos robôs com tecnologia de IA usa câmeras para entender o ambiente e aprender novas tarefas. No entanto, está se tornando mais fácil treinar robôs com som também, ajudando-os a se adaptar a tarefas e ambientes em que a visibilidade é limitada.

Embora a visão seja importante, há tarefas diárias em que o som é realmente mais útil, como ouvir as cebolas chiando no fogão para ver se a panela está na temperatura certa. No entanto, o treinamento de robôs com áudio só foi feito em ambientes de laboratório altamente controlados, e as técnicas ficaram atrás de outros métodos rápidos de ensino de robôs.

Os pesquisadores do Robotics and Embodied AI Lab da Universidade de Stanford se propuseram a mudar isso. Primeiro, eles criaram um sistema para coletar dados de áudio, composto por uma câmera GoPro e uma garra com um microfone, projetado para filtrar o ruído de fundo. Demonstradores humanos usaram a garra para uma variedade de tarefas domésticas, e, em seguida, usaram esses dados para ensinar aos braços robóticos como executar a tarefa por conta própria. Os novos algoritmos de treinamento da equipe ajudam os robôs a coletar pistas dos sinais de áudio para um desempenho mais eficaz.

“Até agora, os robôs têm treinado em vídeos sem som”, diz Zeyi Liu, estudante de doutorado em Stanford e principal autor do estudo. “Mas há muitos dados úteis no áudio.”

Para testar o quanto um robô pode ser mais bem-sucedido se for capaz de “ouvir”, os pesquisadores escolheram quatro tarefas: virar um pãozinho em uma frigideira, apagar um quadro branco, juntar duas tiras de velcro e despejar dados de um copo. Em cada tarefa, os sons fornecem pistas com as quais as câmeras ou os sensores táteis têm dificuldade, como saber se o apagador está em contato adequado com o quadro branco ou se o copo contém dados.

Depois de demonstrar cada tarefa algumas centenas de vezes, a equipe comparou as taxas de sucesso do treinamento com áudio e do treinamento apenas com visão. Os resultados, publicados em um artigo no arXiv que não foi revisado por pares, foram promissores. Ao usar apenas a visão no teste de dados, o robô conseguiu identificar em 27% das vezes se havia dados no copo, mas esse número aumentou para 94% quando o som foi incluído.

Não é a primeira vez que o áudio é usado para treinar robôs, diz Shuran Song, chefe do laboratório que produziu o estudo, mas é um grande passo para fazê-lo em escala: “Estamos facilitando o uso do áudio coletado ‘na natureza’, em vez de nos restringirmos a coletá-lo no laboratório, o que consome mais tempo.”

A pesquisa indica que o áudio pode se tornar uma fonte de dados mais procurada na corrida para treinar robôs com IA. Os pesquisadores estão ensinando os robôs mais rápido do que nunca usando o aprendizado por imitação, mostrando-lhes centenas de exemplos de tarefas sendo realizadas em vez de codificar cada uma delas manualmente. Se o áudio pudesse ser coletado em escala usando dispositivos como o do estudo, isso poderia dar a eles um “sentido” totalmente novo, ajudando-os a se adaptar mais rapidamente a ambientes em que a visibilidade é limitada ou não é útil.

“É seguro dizer que o áudio é a modalidade menos estudada para detecção [em robôs]”, diz Dmitry Berenson, professor associado de robótica da Universidade de Michigan, que não participou do estudo. Isso se deve ao fato de que a maior parte das pesquisas sobre o treinamento de robôs para manipular objetos tem sido feita para tarefas industriais de pegar e colocar, como classificar objetos em caixas. Essas tarefas não se beneficiam muito do som e, em vez disso, dependem de sensores táteis ou visuais. No entanto, à medida que os robôs se expandirem para tarefas em residências, cozinhas e outros ambientes, o áudio se tornará cada vez mais útil, diz Berenson.

Pense em um robô tentando descobrir qual bolsa ou bolso contém um conjunto de chaves, tudo isso com visibilidade limitada. “Talvez, antes mesmo de tocar nas chaves, você as ouça tilintando”, diz Berenson. “Essa é uma dica de que as chaves estão naquele bolso e não em outros.”

Ainda assim, o áudio tem limites. A equipe ressalta que o som não será tão útil com os chamados objetos macios ou flexíveis, como roupas, que não criam tanto áudio utilizável. Os robôs também tiveram dificuldades para filtrar o áudio de seus próprios ruídos motores durante as tarefas, já que esse ruído não estava presente nos dados de treinamento produzidos por humanos. Para resolver esse problema, os pesquisadores precisaram adicionar sons de robôs – zumbidos, ruídos e ruídos de atuadores – aos conjuntos de treinamento para que os robôs pudessem aprender a sintonizá-los.

A próxima etapa, diz Liu, é verificar o quanto os modelos podem melhorar com mais dados, o que pode significar adicionar mais microfones, coletar áudio espacial e incorporar microfones em outros tipos de dispositivos de coleta de dados.

Por:James O’DonnellJames é repórter de Inteligência Artificial na MIT Technology Review, especializado em análise de promessas e riscos de tecnologias como veículos autônomos, robôs cirúrgicos e chatbots.

Assine

Permitir que os robôs aprendam ouvindo os tornará mais úteis

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Participação social nas decisões sobre tecnologias no SUS

Game dos clones: os novos lobos da empresa de biotecnologia Colossal são fofos, mas seriam eles terríveis?

Último vídeo

Ética

Tecnologia, ética e o impacto de nossas escolhas

Inteligência Artificial e Ética Global: entre a promessa do progresso e a ameaça da desumanização

Inteligência estatal

Seu chefe está de olho em você

Por que entregar o controle total a sistemas de IA pode custar caro?

Corpos humanos ‘sobressalentes’ com origem ética poderiam revolucionar a medicina

A comunidade de física dos EUA ainda está reconstruindo a confiança

O papel do marketing de influência na popularização da ciência

Quem é o autor dessa obra?

Por dentro da corrida para encontrar alternativas ao GPS

Quatro razões para ser otimista sobre o consumo de energia no uso de IA

Com público recorde, o terceiro e último dia do Energy Summit 2025 foi marcado pela presença do governador do Rio de Janeiro, Cláudio Castro, encerrando o evento em grande estilo.

Vem aí o primeiro centro de tratamentos médicos experimentais dos Estados Unidos

Acesso à inovação: tratamentos experimentais e o “direito de tentar”

Tecnologia policial pode contornar proibições sobre reconhecimento facial

Segundo dia do Energy Summit 2025 conta com palestra de Prêmio Nobel da Paz e debates sobre infraestrutura energética na América Latina, capital de risco e o papel estratégico das políticas públicas

A corrida do sódio e os novos caminhos para a eletrificação global

Nossos tópicos

Newsletter

Conecte-se

Assine nossa newsletter

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos