A Meta criou um sistema capaz de incorporar sinais ocultos, conhecidos como marcas-d’água, em clipes de áudio gerados por IA. Isso poderia ajudar a detectar conteúdo online gerado por IA.
A ferramenta, chamada AudioSeal, é a primeira capaz de identificar quais bits de áudio, por exemplo, em um podcast de uma hora inteira, podem ter sido gerados por IA. “Ela ajudaria a enfrentar o problema crescente de desinformação e fraudes usando ferramentas de clonagem de voz”, diz Hady Elsahar, cientista pesquisador da Meta. Atores mal-intencionados usaram IA generativa para criar deepfakes de áudio do presidente Joe Biden, e golpistas usaram deepfakes para chantagear suas vítimas. Em teoria, as marcas-d’água seriam capazes de ajudar as empresas de mídia social a detectar e remover conteúdos indesejados.
No entanto, há algumas ressalvas importantes. A Meta diz que ainda não tem planos de aplicar as marcas-d’água ao áudio gerado por IA, criado com suas ferramentas. As marcas-d’água de áudio ainda não são amplamente adotadas e não há um padrão único acordado pelo setor para elas. E as marcas-d’água para conteúdo gerado por IA tendem a ser fáceis de adulterar, por exemplo, removendo-as ou falsificando-as.
“A detecção rápida e a capacidade de identificar quais elementos de um arquivo de áudio são gerados por IA serão fundamentais para tornar o sistema útil”, diz Elsahar. Ele diz que a equipe alcançou entre 90% e 100% de precisão na detecção das marcas-d’água, resultados muito melhores do que os obtidos em tentativas anteriores de colocar marcas-d’água em áudio.
O AudioSeal está disponível gratuitamente no GitHub. Qualquer pessoa pode baixá-lo e usá-lo para adicionar marcas-d’água a clipes de áudio gerados por IA. Eventualmente, ele poderá ser sobreposto aos modelos de geração de áudio de IA, de modo que seja aplicado automaticamente a qualquer discurso gerado com eles. Os pesquisadores que o criaram apresentarão seu trabalho na Conferência Internacional sobre Aprendizado de Máquina em Viena, Áustria, em julho.
O AudioSeal é criado usando duas redes neurais. Uma gera sinais de marca-d’água que podem ser incorporados às faixas de áudio. Esses sinais são imperceptíveis ao ouvido humano, mas podem ser detectados rapidamente usando a outra rede neural.
Atualmente, se você quiser tentar identificar o áudio gerado por IA em um clipe mais longo, terá que vasculhar todo o material em pedaços de segundos para ver se algum deles contém uma marca-d’água. Esse é um processo lento e trabalhoso, e não é prático em plataformas de mídias sociais, com milhões de minutos de fala.
O AudioSeal funciona de forma diferente: incorporando uma marca-d’água em cada seção de toda a faixa de áudio. Isso permite que ela seja “localizada”, o que significa que ainda pode ser detectada mesmo que o áudio seja cortado ou editado.
Ben Zhao, professor de Ciências da Computação da Universidade de Chicago, diz que essa capacidade e a precisão quase perfeita da detecção, tornam o AudioSeal melhor do que qualquer outro sistema anterior de marca-d’água de áudio que ele tenha encontrado.
“É significativo explorar pesquisas que melhorem o estado da arte em marcas-d’água, especialmente em mídias como a fala, que geralmente são mais difíceis de marcar e detectar do que o conteúdo visual”, diz Claire Leibowicz, diretora de IA e integridade de mídia da organização sem fins lucrativos, Partnership on AI.
No entanto, há algumas falhas importantes que precisam ser superadas antes que esses tipos de marcas-d’água de áudio possam ser adotados em massa. Os pesquisadores da Meta testaram diferentes ataques para removê-las e descobriram que quanto mais informações são divulgadas sobre o algoritmo delas, mais vulnerável ele fica. O sistema também exige que as pessoas a adicione voluntariamente aos seus arquivos de áudio.
Isso impõe algumas limitações fundamentais à ferramenta, diz Zhao. “Quando o invasor tem algum acesso ao detector [de marca-d’água], ele é bastante frágil”, diz ele. E isso significa que somente a Meta poderá verificar se o conteúdo de áudio é gerado por IA ou não.
Leibowicz diz que ainda não está convencida de que o serviço realmente aumentará a confiança do público nas informações que estão vendo ou ouvindo, apesar de sua popularidade como solução no setor de tecnologia. Isso se deve, em parte, ao fato de elas próprias serem passíveis de abuso.
“Não acredito que qualquer marca-d’água seja resistente à remoção e falsificação por adversários”, acrescenta.
—
Por:Melissa Heikkilä
Melissa é repórter sênior da MIT Technology Review, cobrindo assuntos ligados à Inteligência Artificial e como ela está mudando nossa sociedade.