“Armadilhas de direitos autorais” podem informar escritores se IA copiou trabalho
Inteligência artificial

“Armadilhas de direitos autorais” podem informar escritores se IA copiou trabalho

A técnica tem sido usada ao longo da história, mas agora pode ser uma ferramenta em uma das maiores lutas contra a Inteligência Artificial.

O que você encontrará neste artigo:

Desenvolvimento das armadilhas de direitos autorais
Funcionamento das armadilhas
Limitações das armadilhas

Banner indicando a posição do botão de download do artigo em formato pdf

Desde o início do boom da IA generativa, os criadores de conteúdo têm argumentado que seus trabalhos foram incorporados aos modelos de IA sem o devido consentimento. No entanto, até então, era difícil saber se um texto específico foi realmente usado em um conjunto de dados de treinamento.

Agora eles têm uma nova maneira de provar isso: as “armadilhas de direitos autorais”, desenvolvidas por uma equipe do Imperial College London, são pedaços de texto oculto que permitem que escritores e editores marquem sutilmente seu trabalho para detectar posteriormente se ele foi usado em modelos de IA ou não. A ideia é semelhante às armadilhas que foram usadas pelos detentores de direitos autorais ao longo da história – estratégias como incluir locais falsos em um mapa ou palavras falsas em um dicionário.

Essas armadilhas de direitos autorais de IA exploram uma das maiores lutas na área. Diversas editoras e escritores estão em meio a litígios contra empresas de tecnologia, alegando que sua propriedade intelectual foi incorporada a conjuntos de dados de treinamento sem sua permissão. O caso em andamento do The New York Times contra a OpenAI é, provavelmente, o mais conhecido deles.

O código para gerar e detectar armadilhas está atualmente disponível no GitHub, mas a equipe também pretende criar uma ferramenta que permita que as pessoas gerem e insiram as armadilhas por conta própria.

“Há total falta de transparência em termos de qual conteúdo é usado para treinar modelos, e achamos que isso está impedindo que se encontre o equilíbrio certo [entre empresas de IA e criadores de conteúdo]”, diz Yves-Alexandre de Montjoye, professor associado de matemática aplicada e ciência da computação no Imperial College London, que liderou a pesquisa. Ela foi apresentada na International Conference on Machine Learning, uma importante conferência sobre IA que realizada em Viena.

Para criar as armadilhas, a equipe usou um gerador de palavras para formar milhares de frases sintéticas. Essas sentenças são longas e cheias de palavras sem sentido, e podem ter a seguinte aparência: “Quando em tempos de turbulência… o que está à venda e, mais importante, quando, é melhor, esta lista informa quem está abrindo às terças-feiras à noite com seus horários regulares de venda e outros horários de abertura de seus vizinhos. Você ainda.”

A equipe gerou 100 frases de armadilha e, em seguida, escolheu aleatoriamente uma para injetar em um texto várias vezes, explica de Montjoye. A arapuca poderia ser injetada no texto de várias maneiras, por exemplo, como texto branco em um fundo branco ou incorporada ao código-fonte do artigo. Essa frase tinha que ser repetida no texto de 100 a 1.000 vezes.

Mini Banner - Assine a MIT Technology Review

Para detectá-las, eles alimentaram um grande modelo de linguagem com as 100 frases sintéticas que haviam gerado e verificaram se elas foram sinalizadas como novas ou não. Se o modelo tivesse visto uma frase armadilha em seus dados de treinamento, ele indicaria uma pontuação menor de “surpresa” (também conhecida como “perplexidade”). Mas se o modelo ficasse “surpreso” com as frases, isso significava que ele as estava encontrando pela primeira vez e, portanto, não eram armadilhas.

No passado, os pesquisadores sugeriram explorar o fato de que os modelos de linguagem memorizam seus dados de treinamento para determinar se algo apareceu neles. A técnica, chamada de “ataque de inferência de associação”, funciona de forma eficaz em grandes modelos de última geração, que tendem a memorizar muitos de suas informações durante o treinamento.

“Em contrapartida, modelos menores que estão ganhando popularidade e podem ser executados em dispositivos móveis, memorizam menos e, portanto, são menos suscetíveis a ataques de inferência de associação, o que torna mais difícil determinar se foram ou não treinados em um determinado documento protegido por direitos autorais”, diz Gautam Kamath, professor assistente de ciência da computação da Universidade de Waterloo, que não participou da pesquisa.

As armadilhas de direitos autorais são uma forma de realizar ataques de inferência de associação mesmo em modelos menores. A equipe as injetou no conjunto de dados de treinamento do CroissantLLM, um novo modelo bilíngue de idioma francês-inglês que foi treinado do zero por uma equipe de pesquisadores acadêmicos e do setor, com a qual a equipe do Imperial College London fez parceria. O CroissantLLM tem 1,3 bilhão de parâmetros, uma fração do número de modelos de última geração (o GPT-4 supostamente tem 1,76 trilhão, por exemplo).

A pesquisa mostra que é realmente possível introduzir essas armadilhas nos dados de texto para aumentar significativamente a eficácia dos ataques de inferência de associação, mesmo para modelos menores, diz Kamath. Mas ainda há muito a ser feito, acrescenta ele.

Repetir uma frase de 75 palavras mil vezes em um documento é uma grande mudança no texto original, o que poderia permitir que as pessoas que treinam modelos de IA detectassem a armadilha e ignorassem o conteúdo que a continha, ou simplesmente a excluíssem e treinassem com o restante do texto, diz Kamath. Isso também torna o texto original difícil de ler.

Isso torna essa ferramenta impraticável no momento, diz Sameer Singh, professor de ciência da computação da Universidade da Califórnia, em Irvine, e cofundador da startup Spiffy AI. Ele não participou da pesquisa. “Muitas empresas fazem a deduplicação, ou seja, limpam os dados, e um monte desse tipo de material provavelmente será jogado fora”, diz Singh.

Uma forma de aprimorar as armadilhas de direitos autorais, diz Kamath, seria encontrar outras maneiras de marcar o conteúdo protegido por direitos autorais para que os ataques de inferência de associação funcionem melhor neles, ou aprimorar os próprios ataques de inferência de associação.

Banner Assine a MIT Technology Review Brasil - Escolha seu plano

De Montjoye reconhece que as armadilhas não são infalíveis. Um invasor motivado que conheça uma armadilha pode removê-la, diz ele.

“Se ele pode ou não remover todas as armadilhas é uma questão em aberto, e é provável que seja um jogo de gato e rato”, diz ele. Mas, mesmo assim, quanto mais armadilhas são aplicadas, mais difícil se torna remover todas elas sem recursos significativos de engenharia.

“É importante ter em mente que as armadilhas de direitos autorais podem ser apenas uma solução provisória ou meramente um inconveniente para os treinadores de modelos”, diz Kamath. “Não é possível liberar um conteúdo que contenha uma armadilha e ter qualquer garantia de que ela será uma armadilha eficaz para sempre.”

Por: Melissa é repórter sênior da MIT Technology Review, cobrindo assuntos ligados à Inteligência Artificial e como ela está mudando nossa sociedade.

Último vídeo

Nossos tópicos