Imagine estar em um jantar com um grupo de amigos que alternam entre diferentes idiomas que você não fala e ainda assim conseguir entender o que eles estão dizendo. Esse cenário inspirou um novo sistema de fones de ouvido com Inteligência Artificial, capaz de traduzir a fala de múltiplos interlocutores simultaneamente, em tempo real
O sistema, chamado Spatial Speech Translation, rastreia a direção e as características vocais de cada pessoa, ajudando o usuário dos fones a identificar quem está dizendo o quê em um ambiente coletivo.
“Há tantas pessoas inteligentes no mundo, e a barreira do idioma impede que elas tenham confiança para se comunicar”, afirma Shyam Gollakota, professor da Universidade de Washington, nos Estados Unidos, e um dos responsáveis pelo projeto. “Minha mãe tem ideias incríveis quando fala em Telugu, mas é muito difícil para ela se comunicar com as pessoas nos EUA quando vem da Índia nos visitar. Acreditamos que esse tipo de sistema pode ser transformador para pessoas como ela.”
Embora já existam outros sistemas de tradução com IA em tempo real, como os presentes nos óculos inteligentes Ray-Ban da Meta, eles se concentram em apenas um locutor por vez e geralmente entregam traduções automatizadas com voz robótica. O novo sistema foi projetado para funcionar com fones de ouvido com cancelamento de ruído e microfones, já disponíveis no mercado, conectados a um laptop com chip Apple M2, que tem capacidade para rodar redes neurais. O mesmo chip equipa o headset Apple Vision Pro. A pesquisa foi apresentada na ACM CHI Conference on Human Factors in Computing Systems, em Yokohama, Japão.
Nos últimos anos, os modelos de linguagem de grande escala trouxeram avanços significativos na tradução de fala. Como resultado, traduções entre idiomas com grande volume de dados de treinamento, como os quatro usados neste estudo, se tornaram quase perfeitas em aplicativos como Google Tradutor ou no ChatGPT. Mas ainda está longe de ser um processo instantâneo e fluido em todos os idiomas. Esse é um objetivo que muitas empresas perseguem, afirma Alina Karakanta, professora assistente na Universidade de Leiden, na Holanda, especialista em linguística computacional, que não participou do projeto. “Acho que essa é uma aplicação útil. Pode ajudar muita gente”, diz ela.
O Spatial Speech Translation é composto por dois modelos de IA. O primeiro divide o espaço ao redor do usuário dos fones em pequenas regiões e utiliza uma rede neural para buscar locutores e identificar a direção de onde vêm as vozes.
O segundo modelo traduz as falas de francês, alemão ou espanhol para o inglês, utilizando conjuntos de dados públicos. Esse mesmo modelo extrai as características únicas e o tom emocional da voz de cada locutor, como altura e amplitude, e aplica essas propriedades ao texto traduzido, criando uma espécie de “voz clonada”. Isso significa que, quando a tradução chega ao fone do usuário segundos depois, ela soa como se viesse da direção do locutor e mantém semelhança com sua voz original, em vez de parecer uma tradução robótica.
Separar vozes humanas já é uma tarefa complexa para sistemas de IA. Incorporar essa capacidade em um sistema de tradução em tempo real, mapear a distância entre o falante e o ouvinte, e ainda garantir baixa latência em um dispositivo real é algo impressionante, afirma Samuele Cornell, pesquisador de pós-doutorado no Instituto de Tecnologias da Linguagem da Universidade Carnegie Mellon, nos Estados Unidos, que também não participou do estudo.
“Tradução de fala para fala em tempo real é incrivelmente difícil”, ele afirma. “Os resultados são muito bons nas condições controladas dos testes. Mas, para um produto real, seria necessário muito mais dados de treinamento. De preferência com ruídos e gravações feitas com os próprios fones de ouvido, e não apenas dados sintéticos.”
Agora, a equipe de Gollakota está focada em reduzir o tempo entre o momento em que alguém fala e a tradução aparecer nos fones, o que tornaria a conversa mais natural entre pessoas que falam idiomas diferentes. “Queremos diminuir significativamente essa latência, para menos de um segundo, para que a conversa não perca o ritmo”, explica o pesquisador.
Esse ainda é um grande desafio, pois a velocidade com que um sistema de IA consegue traduzir de um idioma para outro depende da estrutura linguística. Dos três idiomas usados no treinamento do Spatial Speech Translation, o sistema foi mais rápido para traduzir do francês para o inglês, seguido do espanhol e, por fim, do alemão. Isso reflete a estrutura do alemão, que costuma colocar os verbos e parte essencial do significado no fim das frases, diferentemente do francês e do espanhol, segundo Claudio Fantinuoli, pesquisador da Universidade Johannes Gutenberg de Mainz, na Alemanha, que também não esteve envolvido no projeto.
Reduzir a latência pode prejudicar a precisão da tradução, ele alerta: “Quanto mais você espera [para traduzir], mais contexto você tem e melhor será a tradução. É um equilíbrio delicado”.