A Meta divulgou um modelo de IA capaz de traduzir a fala de até 101 idiomas, marcando um avanço significativo rumo à interpretação simultânea em tempo real, na qual as palavras são traduzidas à medida que são pronunciadas.
Normalmente, os modelos de tradução de fala seguem um processo com múltiplas etapas: primeiro, convertem a fala em texto; em seguida, traduzem o texto para outro idioma; por fim, transformam esse texto traduzido em fala no idioma de destino. Esse método é suscetível a erros e ineficiências em cada etapa. Contudo, o novo modelo da Meta, chamado SeamlessM4T, permite uma tradução mais direta entre falas de diferentes idiomas, como descrito em um artigo publicado hoje na Nature.
O Seamless apresenta 23% mais precisão em traduções de texto em comparação com os modelos líderes. Embora o AudioPaLM, do Google, suporte mais idiomas (113 contra 101 do Seamless), ele traduz apenas para o inglês. Já o SeamlessM4T traduz para outros 36 idiomas.
O modelo utiliza um processo chamado mineração de dados paralelos, que identifica instâncias nas quais o som de vídeos ou áudios corresponda a legendas em outros idiomas, coletadas na web. Isso permitiu ao modelo associar sons em uma língua a textos equivalentes em outro, ampliando substancialmente seu conjunto de exemplos de tradução.
“É impressionante a amplitude de funções que a Meta está desenvolvendo, como texto para fala, fala para texto e reconhecimento automático de fala”, comenta Chetan Jaiswal, professor de ciência da computação da Universidade Quinnipiac, que não participou do estudo. “O número de idiomas suportados é uma conquista notável.”
Apesar das inovações, afirma o estudo, especialistas humanos ainda desempenham um papel essencial no processo de tradução, especialmente para lidar com contextos culturais e garantir a precisão do significado entre idiomas. Lynne Bowker, pesquisadora da área na Université Laval, observa: “Linguagens refletem culturas, e culturas possuem formas próprias de conhecimento.”
Aplicações como medicina ou direito exigem que traduções automáticas sejam rigorosamente revisadas por humanos, ele afirma. Caso contrário, podem ocorrer mal-entendidos. Por exemplo, em janeiro de 2021, o Google Tradutor foi usado para traduzir informações de saúde pública sobre a vacina contra a covid-19 do Departamento de Saúde da Virgínia. A ferramenta interpretou “not mandatory” (não obrigatório) em inglês como “not necessary” (não necessário) em espanhol, alterando completamente o sentido da mensagem.
Modelos de IA têm muito mais exemplos para treinamento em alguns idiomas do que em outros. Isso significa que modelos atuais de tradução de fala para fala podem traduzir, por exemplo, o grego para o inglês, onde há muitos exemplos disponíveis, mas não conseguem traduzir do suaíli para o grego. A equipe responsável pelo Seamless buscou resolver esse problema ao pré-treinar o modelo com milhões de horas de áudio falado em diferentes idiomas. Isso permitiu que ele reconhecesse padrões gerais na linguagem, facilitando o processamento de idiomas menos falados, já que o modelo tinha uma base prévia do que uma linguagem falada deveria soar.
O sistema é de código aberto, e os pesquisadores esperam que isso incentive outros desenvolvedores a expandirem as capacidades atuais do modelo. No entanto, há ceticismo sobre sua utilidade em comparação com alternativas disponíveis. “O modelo de tradução do Google não é tão aberto quanto o Seamless, mas é muito mais responsivo e rápido, e não custa nada para acadêmicos”, diz Jaiswal.
O aspecto mais empolgante do sistema da Meta é que ele aponta para a possibilidade de interpretação instantânea entre idiomas num futuro próximo—como o Peixe Babel no romance cult O Guia do Mochileiro das Galáxias, de Douglas Adams. O SeamlessM4T é mais rápido que os modelos existentes, mas ainda não é instantâneo. Dito isso, a Meta afirma possuir uma versão mais nova do Seamless, tão rápida quanto intérpretes humanos.
“Embora uma tradução com atraso seja útil e tenha seu valor, acredito que a tradução simultânea será ainda mais vantajosa”, afirma Kenny Zhu, diretor do Arlington Computational Linguistics Lab na Universidade do Texas em Arlington, que não está envolvido na nova pesquisa.