Como um esforço coletivo pode tornar as vozes de IA mais diversas
Inteligência artificial

Como um esforço coletivo pode tornar as vozes de IA mais diversas

Uma ação internacional conduzida por voluntários para coletar dados de treinamento em mais idiomas, abrangendo diferentes idades e gêneros, pode ajudar a tornar a próxima geração de assistentes de voz baseados em IA mais inclusiva e menos exploratória.

Estamos à beira de um boom na tecnologia de IA de voz, com empresas como Apple e OpenAI lançando uma nova geração de assistentes baseados em inteligência artificial. Contudo, as vozes padrão desses assistentes geralmente refletem um padrão cultural: americanas brancas, britânicas, se muito. Além disso, quase sempre falam inglês, representando apenas uma pequena fração dos inúmeros dialetos e sotaques da língua, que variam entre regiões e culturas. Para os bilhões de pessoas que não falam inglês, as alternativas disponíveis são muito menos eficazes.

Essa disparidade ocorre porque os dados usados para treinar esses modelos são limitados. Na pesquisa em IA, a maior parte do conteúdo utilizado é extraída da internet em inglês, refletindo predominantemente a cultura anglo-americana. No entanto, um grande esforço comunitário busca mudar esse cenário e trazer mais transparência e diversidade à sonoridade das IA: a iniciativa Common Voice da Mozilla.

O conjunto de dados criado pela Common Voice nos últimos sete anos tornou-se um dos recursos mais valiosos para quem deseja construir IAs de voz. Nos últimos anos, o número de downloads desse recurso cresceu exponencialmente, especialmente com o atual boom da IA, ultrapassando 5 milhões em 2024, em comparação com apenas 38.500 em 2020. A coleta desses dados, entretanto, não é uma tarefa simples, pois depende de uma vasta rede de voluntários, que cresceu de cerca de 500 mil em 2020 para mais de 900 mil em 2024. Ainda assim, a abordagem de disponibilizar esses dados gratuitamente levanta críticas dentro da comunidade, que aponta para a possibilidade de exploração, já que gigantes da tecnologia podem se beneficiar do trabalho voluntário.

Desde 2017, os voluntários do projeto Common Voice coletaram 31.000 horas de dados de voz em cerca de 180 idiomas, que vão desde o russo e catalão até o marata. Serviços que utilizam IA de áudio provavelmente foram, ao menos parcialmente, treinados com dados desse projeto.

A causa da Mozilla é nobre: à medida que a IA se integra cada vez mais em nossas vidas e na comunicação, torna-se essencial que essas ferramentas soem como nós. Essa tecnologia tem o potencial de reduzir barreiras de comunicação e transmitir informações de forma mais acessível, como para pessoas que não sabem ler. Contudo, o foco quase exclusivo no inglês corre o risco de reforçar uma nova ordem colonial e extinguir idiomas menores.

“Seria um grande retrocesso se, em vez de finalmente criarmos modelos multimodais e multilíngues de alta performance, acabássemos forçando todos a operarem em inglês ou francês”, afirma EM Lewis-Jong, diretor da Common Voice.

Por ser um projeto de código aberto, qualquer pessoa pode acessar os dados da Common Voice e usá-los gratuitamente. Esse nível de transparência é raro na governança de dados para IA. Muitos dos grandes conjuntos de dados de áudio não estão disponíveis ao público, sendo frequentemente extraídos de plataformas como YouTube, segundo pesquisa de uma equipe das universidades de Washington, Carnegie Mellon e Northwestern.

Grande parte do trabalho de coleta é realizada por voluntários como Bülent Özden, pesquisador da Turquia. Desde 2020, ele não apenas doa sua voz, mas também promove o projeto para engajar outras pessoas. Recentemente, dedicou dois meses em tempo integral à correção de dados e revisão de erros no idioma turco. Para Özden, o objetivo não é apenas melhorar os modelos de IA, mas também preservar culturas, especialmente idiomas de poucos recursos. Ele menciona que começou a coletar amostras de línguas menores da Turquia, como o circassiano e o zazá.

No entanto, há um desequilíbrio notável na cobertura de idiomas e sotaques. Por exemplo, enquanto há 3.554 horas de dados em inglês coletadas de 94.665 falantes, apenas 22 horas de gravações em finlandês foram coletadas de 231 pessoas. Idiomas como coreano e punjabi, que possuem milhões de falantes, contam com apenas algumas horas de dados gravados.

Esse desequilíbrio ocorre porque os esforços de coleta são iniciados de forma comunitária, explica Lewis-Jong. “Nosso objetivo é fornecer às comunidades os recursos necessários para criar seus próprios conjuntos de dados de treinamento para IA. Focamos principalmente em comunidades linguísticas que não têm dados disponíveis ou que não são alvo do interesse de grandes empresas de tecnologia.” Com a ajuda de voluntários e financiamentos pontuais, a Common Voice espera alcançar 200 idiomas até o final do ano.

A licença permissiva da Common Voice atrai muitas empresas, como a startup sueca Mabel AI, que desenvolve ferramentas de tradução para prestadores de saúde. Um dos primeiros idiomas usados pela empresa foi o ucraniano, permitindo que refugiados interagissem com os serviços sociais suecos. Desde então, a equipe expandiu seu trabalho para outros idiomas, como árabe e russo.

Um problema comum em muitos conjuntos de dados de áudio é que eles consistem em leituras de livros ou textos, o que não reflete a forma como as pessoas realmente falam, especialmente em situações de estresse ou dor, explica Karolina Sjöberg, fundadora da Mabel AI. O diferencial do Common Voice é que qualquer pessoa pode submeter frases para serem lidas em voz alta, tornando os dados mais naturais e próximos da fala cotidiana.

Ainda assim, os dados não são perfeitamente representativos. A equipe da Mabel AI descobriu que a maioria das vozes disponíveis nos idiomas de que precisavam era de homens jovens, um padrão comum no conjunto de dados da Common Voice.

“Os refugiados para quem pretendíamos usar o aplicativo eram tudo, menos homens jovens”, diz Sjöberg. “Isso significava que os dados de voz de que precisávamos não correspondiam exatamente aos dados que tínhamos.” A equipe começou então a coletar seus próprios dados de voz, envolvendo mulheres ucranianas e pessoas idosas.

Diferentemente de outros conjuntos de dados, o Common Voice solicita aos participantes que compartilhem informações sobre seu gênero e detalhes sobre seus sotaques. Garantir a representação de diferentes gêneros é essencial para combater o viés nos modelos de IA, explica Rebecca Ryakitimbo, membro do projeto e criadora do plano de ação de gênero do Common Voice. Maior diversidade não só melhora a representatividade, mas também resulta em modelos mais eficientes. Sistemas treinados com dados homogêneos e limitados tendem a gerar resultados estereotipados e prejudiciais.

“Não queremos um caso em que um chatbot, com nome feminino, responda de forma diferente a uma mulher do que a um homem”, diz Ryakitimbo.

Ryakitimbo coletou dados de voz em kiswahili na Tanzânia, no Quênia e na República Democrática do Congo. Ela buscou obter vozes de um grupo socioeconômico diverso de falantes de kiswahili, engajando mulheres de todas as idades que vivem em áreas rurais, muitas vezes sem acesso à alfabetização ou a dispositivos tecnológicos.

Esse tipo de coleta é desafiador. Para muitas pessoas, a importância de dados de voz para IA pode parecer abstrata, especialmente se elas não estiverem familiarizadas com a tecnologia. Ryakitimbo e outros voluntários abordaram mulheres em contextos nos quais elas se sentissem seguras, como palestras sobre higiene menstrual, explicando como a tecnologia poderia, por exemplo, ajudar a disseminar informações sobre o tema. Para aquelas que não sabiam ler, a equipe lia as frases, e elas as repetiam para a gravação.

O projeto Common Voice é sustentado pela crença de que as línguas são uma parte essencial da identidade. “Achamos que não se trata apenas de idioma, mas de transmitir cultura, herança e valorizar o contexto cultural único de cada pessoa”, afirma Lewis-Jong. “Existem expressões idiomáticas e frases culturais que simplesmente não podem ser traduzidas”, acrescenta.

Common Voice é o único conjunto de dados de áudio onde o inglês não domina, diz Willie Agnew, pesquisador da Universidade Carnegie Mellon que estuda conjuntos de dados de áudio. “Estou muito impressionado com o quão bem eles conseguiram criar um conjunto de dados realmente diverso”, afirma Agnew. “Eles estão muito à frente de quase todos os outros projetos que analisamos.”

Passei algum tempo verificando as gravações de outros falantes de finlandês na plataforma Common Voice. Enquanto suas vozes ecoavam em meu escritório, senti-me surpreendentemente emocionado. Todos estávamos unidos pela mesma causa: tornar os dados de IA mais inclusivos e garantir que nossa cultura e idioma fossem representados adequadamente na próxima geração de ferramentas de IA.

No entanto, surgiram grandes dúvidas sobre o destino da minha voz caso eu a doasse. Uma vez incorporada ao conjunto de dados, eu não teria controle sobre como ela poderia ser usada no futuro. O setor de tecnologia não é exatamente conhecido por dar créditos adequados às pessoas, e os dados estão disponíveis para qualquer uso.

“Por mais que queiramos que isso beneficie as comunidades locais, existe a possibilidade de que as Big Techs também utilizem esses mesmos dados para criar algo que depois se torne um produto comercial”, afirma Ryakitimbo. Embora a Mozilla não divulgue quem baixou o Common Voice, Lewis-Jong menciona que empresas como Meta e Nvidia declararam tê-lo utilizado.

O acesso aberto a dados linguísticos, conquistado com tanto esforço, não é algo desejado por todos os grupos minoritários, diz Harry H. Jiang, pesquisador da Universidade Carnegie Mellon, que participou de auditorias sobre o tema. Por exemplo, grupos indígenas levantaram preocupações.

“O extrativismo é algo que a Mozilla tem refletido muito nos últimos 18 meses”, explica Lewis-Jong. Ainda este ano, o projeto planeja trabalhar com comunidades para testar licenças alternativas, como a Nwulite Obodo Open Data License, desenvolvida por pesquisadores da Universidade de Pretória para compartilhar dados africanos de forma mais justa. Por exemplo, quem deseja acessar os dados poderá ser solicitado a justificar o uso pretendido e, em alguns casos, obter licenças limitadas a produtos específicos ou por um período determinado. Os usuários também poderão ser incentivados a contribuir com projetos comunitários voltados à redução da pobreza, segundo Lewis-Jong.

Lewis-Jong explica que o piloto será um aprendizado para avaliar se as pessoas realmente desejam dados com licenças alternativas e se essas abordagens são sustentáveis para as comunidades que gerenciam os dados. A esperança é que isso leve a algo semelhante a um “código aberto 2.0”.

No final, decidi doar minha voz. Recebi uma lista de frases para dizer, sentei-me em frente ao computador e apertei o botão de gravação. Um dia, espero que meu esforço ajude uma empresa ou pesquisador a construir uma IA de voz menos genérica e mais parecida comigo.


Por:

Melissa é repórter sênior da MIT Technology Review, cobrindo assuntos ligados à Inteligência Artificial e como ela está mudando nossa sociedade.

Último vídeo

Nossos tópicos