Fones de ouvido com cancelamento de ruído usam IA para permitir a passagem de uma única voz

Eles poderiam ajudar os usuários a se concentrarem em vozes específicas em ambientes barulhentos, como um amigo em uma multidão ou um guia turístico em meio ao burburinho urbano

O que você encontrará neste artigo:

– Foco em Vozes Específicas
– Separação de Vozes com IA
– Isolamento de Falantes em Ambientes Barulhentos

by Rhiannon Williamsjunho 20, 2024junho 19, 2024

Download

A vida moderna é barulhenta. Se você não gosta, os fones de ouvido com cancelamento de ruído podem reduzir os sons do seu ambiente. Mas eles abafam os sons indiscriminadamente, de modo que você pode facilmente acabar perdendo algo que realmente deseja ouvir.

Um novo protótipo de sistema de IA para esses fones de ouvido visa solucionar esse problema. Chamado de Target Speech Hearing, o sistema oferece aos usuários a capacidade de selecionar uma pessoa cuja voz permanecerá audível mesmo quando todos os outros sons forem cancelados.

Embora a tecnologia seja atualmente um protótipo, seus criadores dizem que estão em negociações para incorporá-la em marcas populares de fones de ouvido com cancelamento de ruído, e estão trabalhando também para torná-la disponível para aparelhos auditivos.

“Ouvir pessoas específicas é um aspecto fundamental na forma como nos comunicamos e como interagimos no mundo com outros seres humanos”, diz Shyam Gollakota, professor da Universidade de Washington, que trabalhou no projeto. “Mas pode ser realmente desafiador, mesmo que você não tenha nenhum problema de perda auditiva, concentrar-se em pessoas específicas quando se trata de situações barulhentas.”

Os mesmos pesquisadores já haviam conseguido treinar uma rede neural para reconhecer e filtrar determinados sons, como o choro de bebês, o pio de pássaros ou o toque de alarmes, mas separar vozes humanas é um desafio mais difícil, exigindo redes neurais muito mais complexas.

Essa complexidade é um problema quando os modelos de IA precisam funcionar em tempo real em um par de fones de ouvido com potência de computação e duração de bateria limitadas. Para atender a essas restrições, as redes neurais precisavam ser pequenas e eficientes em termos de energia. Assim, a equipe usou uma técnica de compressão de IA chamada destilação de conhecimento. Isso significava pegar um modelo de IA enorme que havia sido treinado em milhões de vozes (o “professor”) e fazer com que ele treinasse um modelo muito menor (o “aluno”), para imitar seu comportamento e desempenho com o mesmo padrão.

O aluno foi então ensinado a extrair os padrões vocais de vozes específicas do ruído ambiente, capturado por microfones conectados a um par de fones de ouvido com cancelamento de ruído, disponíveis no mercado.

Para ativar o sistema Target Speech Hearing, o usuário mantém pressionado um botão nos fones de ouvido por vários segundos enquanto está de frente para a pessoa a ser focalizada. Durante esse processo de “inscrição”, o sistema captura uma amostra de áudio de ambos os fones de ouvido e usa essa gravação para extrair as características vocais do locutor, mesmo quando há outros locutores e ruídos nas proximidades.

Essas características são inseridas em uma segunda rede neural executada em um computador com microcontrolador conectado aos fones de ouvido, por meio de um cabo USB. Essa rede é executada continuamente, mantendo a voz escolhida separada das vozes de outras pessoas e reproduzindo-a para o ouvinte. Uma vez que o sistema tenha se fixado em um alto-falante, ele continua priorizando a voz dessa pessoa, mesmo que o usuário se afaste. Quanto mais dados de treinamento o sistema obtiver ao se concentrar na voz de um alto-falante, melhor será sua capacidade de isolá-la.

Por enquanto, o sistema só é capaz de registrar com sucesso um alto-falante escolhido, cuja voz seja a única alta presente, mas a equipe pretende fazer com que ele funcione mesmo quando a voz mais alta em uma determinada direção não for a da pessoa configurada.

“Identificar uma única voz em um ambiente barulhento é muito difícil”, diz Sefik Emre Eskimez, pesquisador sênior da Microsoft que trabalha com fala e IA, mas que não participou da pesquisa. “Sei que as empresas querem fazer isso”, diz ele. “Se elas conseguirem, isso abrirá muitas aplicações, especialmente em um cenário de reunião.”

“Embora a pesquisa de separação de fala tenda a ser mais teórica do que prática, esse trabalho tem aplicações claras no mundo real”, diz Samuele Cornell, pesquisador do Language Technologies Institute da Universidade Carnegie Mellon, que não trabalhou na pesquisa. “Acho que é um passo na direção certa”, diz Cornell. “É uma lufada de ar fresco”.

—

Por:Rhiannon Williams
Rhiannon é reporter e escreve para a principal newsletter de tecnologia da MIT Techonology Review, a The Download.

Assine

Fones de ouvido com cancelamento de ruído usam IA para permitir a passagem de uma única voz

Autor

Compartilhar

Newsletter

Compartilhar

A OpenAI pode reabilitar modelos de Inteligência Artificial que desenvolvem uma “personalidade de bad boy”

Medicamentos inovadores: o caminho para a definição de preços

Último vídeo

Ética

Tecnologia, ética e o impacto de nossas escolhas

Inteligência Artificial e Ética Global: entre a promessa do progresso e a ameaça da desumanização

Inteligência estatal

Seu chefe está de olho em você

Por que entregar o controle total a sistemas de IA pode custar caro?

Corpos humanos ‘sobressalentes’ com origem ética poderiam revolucionar a medicina

A comunidade de física dos EUA ainda está reconstruindo a confiança

O papel do marketing de influência na popularização da ciência

Quem é o autor dessa obra?

Essas novas baterias estão encontrando um nicho e criando uma concorrência

O papel no Rio de Janeiro na transição energética

Por que é tão difícil combater o abuso facilitado por tecnologia

Arte e inteligência artificial: plágio ou uma nova forma de criatividade?

Decisões em rede: como os CISOs estão redesenhando o futuro da cibersegurança

As vacinas e o avanço da expectativa de vida com qualidade

Inteligência Artificial no marketing ainda falha na experiência do consumidor

Participação social nas decisões sobre tecnologias no SUS

Nossos tópicos

Newsletter

Conecte-se

Assine nossa newsletter

Autor

Compartilhar

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos