As ferramentas de detecção de texto da Inteligência Artificial são realmente fáceis de enganar
Inteligência artificial

As ferramentas de detecção de texto da Inteligência Artificial são realmente fáceis de enganar

Uma safra recente de sistemas de IA que afirmam detectar textos gerados por IA tem um desempenho ruim — e não é preciso muito para passar por eles.

Poucas semanas após o lançamento do ChatGPT, havia o temor de que estudantes estariam usando o chatbot para criar redações aceitáveis em segundos. Em resposta a esses temores, as startups começaram a criar produtos que prometem identificar se o texto foi escrito por um ser humano ou por uma máquina. 

O problema é que é relativamente simples enganar essas ferramentas e evitar a detecção, de acordo com uma nova pesquisa que ainda não foi revisada por pares.  

Debora Weber-Wulff, professora de mídia e computação da Universidade de Ciências Aplicadas, HTW Berlin, trabalhou com um grupo de pesquisadores de várias universidades para avaliar a capacidade de 14 ferramentas, incluindo Turnitin, GPT Zero e Compilatio, de detectar textos escritos pelo ChatGPT da OpenAI. 

A maioria dessas ferramentas funciona procurando marcas registradas de texto gerado por IA, incluindo repetição, e depois calculando a probabilidade de o texto ter sido gerado por Inteligência Artificial. Mas a equipe descobriu que todas as ferramentas testadas tiveram dificuldade para detectar o texto gerado pelo ChatGPT que havia sido ligeiramente reorganizado por humanos e ofuscado por uma ferramenta de parafraseamento, sugerindo que tudo o que os alunos precisam fazer é adaptar ligeiramente as redações geradas pela IA para passar pelos detectores. 

“Essas ferramentas não funcionam”, diz Weber-Wulff. “Elas não fazem o que dizem que fazem. Elas não são detectores de Inteligência Artificial.” 

Os pesquisadores avaliaram as ferramentas escrevendo pequenas redações de nível de graduação sobre uma variedade de assuntos, incluindo engenharia civil, ciência da computação, economia, história, linguística e literatura. Eles mesmos escreveram as redações para ter certeza de que o texto não estava on-line, o que significaria que ele já poderia ter sido usado para treinar o ChatGPT. 

Em seguida, cada pesquisador escreveu um texto adicional em bósnio, tcheco, alemão, letão, eslovaco, espanhol ou sueco. Esses textos passaram pela ferramenta de tradução de IA DeepL ou pelo Google Translate para traduzi-los para o inglês.  

Em seguida, a equipe usou o ChatGPT para gerar dois textos adicionais cada, que foram ligeiramente ajustados em um esforço para ocultar que haviam sido gerados por IA. Um conjunto foi editado manualmente pelos pesquisadores, que reordenaram frases e trocaram palavras, enquanto outro foi reescrito usando uma ferramenta de parafraseamento de IA chamada Quillbot. No final, eles tinham 54 documentos para testar as ferramentas de detecção.

Eles descobriram que, embora as ferramentas fossem boas na identificação de texto escrito por um ser humano (com 96% de precisão, em média), elas se saíram pior quando se tratava de identificar texto gerado por IA, especialmente quando ele havia sido editado. Embora as ferramentas tenham identificado o texto do ChatGPT com 74% de precisão, esse índice caiu para 42% quando o texto gerado foi ligeiramente ajustado. 

Esses tipos de estudos também destacam a desatualização dos métodos atuais das universidades para avaliar o trabalho dos alunos, diz Vitomir Kovanović, professor sênior que desenvolve modelos de machine learning e IA na University of South Australia, que não participou do projeto. 

Daphne Ippolito, cientista sênior de pesquisa do Google especializada em geração de linguagem natural, que também não trabalhou no projeto, levanta outra preocupação. 

“Se os sistemas de detecção automática forem empregados em ambientes educacionais, é fundamental entender suas taxas de falsos positivos, pois acusar incorretamente um aluno de trapaça pode ter consequências terríveis para sua carreira acadêmica”, diz ela. “A taxa de falso-negativo também é importante, pois se muitos textos gerados por IA forem considerados escritos por humanos, o sistema de detecção não será útil.” 

A Compilatio, que produz uma das ferramentas testadas pelos pesquisadores, diz que é importante lembrar que seu sistema apenas indica passagens suspeitas, que classifica como plágio em potencial ou conteúdo potencialmente gerado por IA. 

“Cabe às escolas e aos professores que marcam os documentos analisados validar ou imputar o conhecimento realmente adquirido pelo autor do documento, por exemplo, colocando em prática meios adicionais de investigação — questionamento oral, perguntas adicionais em um ambiente de sala de aula controlado, etc.”, disse um porta-voz da Compilatio. 

“Dessa forma, as ferramentas da Compilatio fazem parte de uma abordagem de ensino genuína que incentiva o aprendizado de boas práticas de pesquisa, redação e citação. O software Compilatio é um auxiliar de correção, não um corretor”, acrescentou o porta-voz. A GPT Zero não respondeu imediatamente a um pedido de comentário. 

“Nosso modelo de detecção se baseia nas diferenças notáveis entre a natureza mais idiossincrática e imprevisível da escrita humana e as assinaturas estatísticas muito previsíveis do texto gerado por IA”, diz Annie Chechitelli, diretora de produtos da Turnitin. 

“No entanto, nosso recurso de detecção de escrita com Inteligência Artificial simplesmente alerta o usuário sobre a presença de escrita com IA, destacando as áreas em que pode ser necessária uma discussão mais aprofundada. Ele não determina o uso apropriado ou inapropriado de ferramentas de escrita com IA, ou se esse uso constitui trapaça ou má conduta com base na avaliação e na instrução fornecida pelo professor.” 

Já sabemos há algum tempo que as ferramentas destinadas a detectar textos escritos por IA nem sempre funcionam como deveriam. No início deste ano, a OpenAI revelou uma ferramenta projetada para detectar texto produzido pelo ChatGPT, admitindo que ela sinalizou apenas 26% do texto escrito por IA como “provavelmente escrito por IA”. A OpenAI indicou à MIT Technology Review uma seção em seu site para considerações de educadores, que adverte que as ferramentas criadas para detectar conteúdo gerado por IA estão “longe de ser infalíveis”. 

Entretanto, essas falhas não impediram que as empresas lançassem produtos que prometem fazer o trabalho, diz Tom Goldstein, professor assistente da Universidade de Maryland, que não participou da pesquisa.  

“Muitos deles não são altamente precisos, mas também não são todos um desastre completo”, acrescenta ele, ressaltando que o Turnitin conseguiu obter alguma precisão de detecção com uma taxa de falsos positivos bastante baixa. E, embora os estudos que evidenciam as deficiências dos chamados sistemas de detecção de texto por IA sejam muito importantes, teria sido útil expandir o escopo do estudo para ferramentas de IA além do ChatGPT, diz Sasha Luccioni, pesquisadora da startup de IA Hugging Face. 

Para Kovanović, toda a ideia de tentar detectar textos escritos com Inteligência Artificial é falha. 

“Não tente detectar a IA — faça com que o uso da IA não seja o problema”, diz ele. 

Último vídeo

Nossos tópicos