A vida moderna é barulhenta. Se você não gosta, os fones de ouvido com cancelamento de ruído podem reduzir os sons do seu ambiente. Mas eles abafam os sons indiscriminadamente, de modo que você pode facilmente acabar perdendo algo que realmente deseja ouvir.
Um novo protótipo de sistema de IA para esses fones de ouvido visa solucionar esse problema. Chamado de Target Speech Hearing, o sistema oferece aos usuários a capacidade de selecionar uma pessoa cuja voz permanecerá audível mesmo quando todos os outros sons forem cancelados.
Embora a tecnologia seja atualmente um protótipo, seus criadores dizem que estão em negociações para incorporá-la em marcas populares de fones de ouvido com cancelamento de ruído, e estão trabalhando também para torná-la disponível para aparelhos auditivos.
“Ouvir pessoas específicas é um aspecto fundamental na forma como nos comunicamos e como interagimos no mundo com outros seres humanos”, diz Shyam Gollakota, professor da Universidade de Washington, que trabalhou no projeto. “Mas pode ser realmente desafiador, mesmo que você não tenha nenhum problema de perda auditiva, concentrar-se em pessoas específicas quando se trata de situações barulhentas.”
Os mesmos pesquisadores já haviam conseguido treinar uma rede neural para reconhecer e filtrar determinados sons, como o choro de bebês, o pio de pássaros ou o toque de alarmes, mas separar vozes humanas é um desafio mais difícil, exigindo redes neurais muito mais complexas.
Essa complexidade é um problema quando os modelos de IA precisam funcionar em tempo real em um par de fones de ouvido com potência de computação e duração de bateria limitadas. Para atender a essas restrições, as redes neurais precisavam ser pequenas e eficientes em termos de energia. Assim, a equipe usou uma técnica de compressão de IA chamada destilação de conhecimento. Isso significava pegar um modelo de IA enorme que havia sido treinado em milhões de vozes (o “professor”) e fazer com que ele treinasse um modelo muito menor (o “aluno”), para imitar seu comportamento e desempenho com o mesmo padrão.
O aluno foi então ensinado a extrair os padrões vocais de vozes específicas do ruído ambiente, capturado por microfones conectados a um par de fones de ouvido com cancelamento de ruído, disponíveis no mercado.
Para ativar o sistema Target Speech Hearing, o usuário mantém pressionado um botão nos fones de ouvido por vários segundos enquanto está de frente para a pessoa a ser focalizada. Durante esse processo de “inscrição”, o sistema captura uma amostra de áudio de ambos os fones de ouvido e usa essa gravação para extrair as características vocais do locutor, mesmo quando há outros locutores e ruídos nas proximidades.
Essas características são inseridas em uma segunda rede neural executada em um computador com microcontrolador conectado aos fones de ouvido, por meio de um cabo USB. Essa rede é executada continuamente, mantendo a voz escolhida separada das vozes de outras pessoas e reproduzindo-a para o ouvinte. Uma vez que o sistema tenha se fixado em um alto-falante, ele continua priorizando a voz dessa pessoa, mesmo que o usuário se afaste. Quanto mais dados de treinamento o sistema obtiver ao se concentrar na voz de um alto-falante, melhor será sua capacidade de isolá-la.
Por enquanto, o sistema só é capaz de registrar com sucesso um alto-falante escolhido, cuja voz seja a única alta presente, mas a equipe pretende fazer com que ele funcione mesmo quando a voz mais alta em uma determinada direção não for a da pessoa configurada.
“Identificar uma única voz em um ambiente barulhento é muito difícil”, diz Sefik Emre Eskimez, pesquisador sênior da Microsoft que trabalha com fala e IA, mas que não participou da pesquisa. “Sei que as empresas querem fazer isso”, diz ele. “Se elas conseguirem, isso abrirá muitas aplicações, especialmente em um cenário de reunião.”
“Embora a pesquisa de separação de fala tenda a ser mais teórica do que prática, esse trabalho tem aplicações claras no mundo real”, diz Samuele Cornell, pesquisador do Language Technologies Institute da Universidade Carnegie Mellon, que não trabalhou na pesquisa. “Acho que é um passo na direção certa”, diz Cornell. “É uma lufada de ar fresco”.
—
Por:Rhiannon Williams
Rhiannon é reporter e escreve para a principal newsletter de tecnologia da MIT Techonology Review, a The Download.