A criptografia pode oferecer uma solução para o enorme problema de rotulagem da IA
Computação

A criptografia pode oferecer uma solução para o enorme problema de rotulagem da IA

Um protocolo de Internet chamado C2PA adiciona um “rótulo nutricional” a imagens, vídeos e áudio.

A Casa Branca quer que as grandes empresas de IA divulguem quando o conteúdo foi criado usando Inteligência Artificial e, muito em breve, a União Europeia vai exigir que algumas plataformas de tecnologia rotulem suas imagens, áudio e vídeo gerados por IA com “marcações proeminentes” divulgando suas origens sintéticas. 

No entanto, há um grande problema: identificar o material que foi criado pela Inteligência Artificial é um enorme desafio técnico. As melhores opções disponíveis no momento — ferramentas de detecção com tecnologia de IA e marcas d’água — são inconsistentes, impermanentes e, às vezes, imprecisas. (De fato, no final de julho, a OpenAI fechou sua própria ferramenta de detecção de IA devido às altas taxas de erro). 

Mas outra abordagem tem atraído a atenção ultimamente: C2PA. Lançado há dois anos, é um protocolo de Internet de código aberto que se baseia em criptografia para codificar detalhes sobre as origens de um conteúdo, ou o que os tecnólogos chamam de informações de “procedência”.  

Os desenvolvedores do C2PA geralmente comparam o protocolo a um rótulo nutricional, mas um que diz de onde o conteúdo veio e quem — ou o quê — o criou. 

O projeto, que faz parte da Joint Development Foundation sem fins lucrativos, foi iniciado pela Adobe, Arm, Intel, Microsoft e Truepic, que formaram a Coalition for Content Provenance and Authenticity (da qual a C2PA recebeu seu nome). Atualmente, mais de 1.500 empresas estão envolvidas no projeto por meio da comunidade de código aberto estreitamente afiliada, a Content Authenticity Initiative (CAI), incluindo empresas tão variadas e proeminentes como a Nikon, a BBC e a Sony. 

Recentemente, com a intensificação do interesse na detecção e regulamentação de IA, o projeto vem ganhando força; Andrew Jenks, presidente da C2PA, diz que o número de membros aumentou 56% nos últimos seis meses. A Shutterstock, importante plataforma de mídia, tornou-se membro e anunciou sua intenção de usar o protocolo para rotular todo o seu conteúdo gerado por IA, incluindo seu gerador de imagens com IA, o DALL-E.  

Sejal Amin, diretor de tecnologia da Shutterstock, disse à MIT Technology Review em um e-mail que a empresa está protegendo artistas e usuários ao “apoiar o desenvolvimento de sistemas e infraestrutura que criam maior transparência para identificar facilmente o que é criação de um artista versus arte gerada ou modificada por IA”. 

O que é o C2PA e como ele está sendo usado? 

Microsoft, Intel, Adobe e outras grandes empresas de tecnologia começaram a trabalhar no C2PA em fevereiro de 2021, na esperança de criar um protocolo universal de Internet que permitisse aos criadores de conteúdo optarem por rotular seu conteúdo visual e de áudio com informações sobre sua origem. (Pelo menos até o momento, isso não se aplica a postagens baseadas em texto). 

Crucialmente, o projeto foi desenvolvido para ser adaptável e funcional em toda a Internet, e o código básico do computador é acessível e gratuito para qualquer pessoa.   

A Truepic, que vende produtos de verificação de conteúdo, demonstrou como o protocolo funciona com um vídeo deepfake com o Revel.ai. Quando um espectador passa o mouse sobre um pequeno ícone no canto superior direito da tela, aparece uma caixa de informações sobre o vídeo que inclui a divulgação de que ele “contém conteúdo gerado por IA”. 

A Adobe também já integrou a C2PA, que ela chama de credenciais de conteúdo, em vários de seus produtos, incluindo o Photoshop e o Adobe Firefly. “Achamos que é um valor agregado que pode atrair mais clientes para as ferramentas da Adobe”, diz Andy Parsons, diretor sênior da Iniciativa de Autenticidade de Conteúdo da Adobe e líder do projeto C2PA. 

A C2PA é protegida por criptografia, que se baseia em uma série de códigos e chaves para proteger as informações contra adulterações e para registrar a origem das informações. Mais especificamente, ele funciona codificando informações de procedência por meio de um conjunto de hashes que se ligam criptograficamente a cada pixel, diz Jenks, que também lidera o trabalho da Microsoft no C2PA. 

O C2PA oferece alguns benefícios essenciais em relação aos sistemas de detecção de Inteligência Artificial que usam a própria IA para identificar conteúdo gerado por meio dela e podem, por sua vez, aprender a melhorar a evasão da detecção. É também um sistema mais padronizado e, em alguns casos, mais facilmente visualizável do que a marca d’água, a outra técnica proeminente usada para identificar conteúdo gerado por IA. O protocolo também pode funcionar junto com as ferramentas de detecção de marca d’água e IA, diz Jenks. 

O valor das informações de procedência  

Adicionar informações de procedência à mídia para combater a desinformação não é uma ideia nova e as primeiras pesquisas parecem mostrar que ela pode ser promissora: um projeto de um estudante de mestrado da Universidade de Oxford, por exemplo, encontrou evidências de que os usuários eram menos suscetíveis à desinformação quando tinham acesso a informações de procedência sobre o conteúdo. De fato, na atualização da OpenAI sobre sua ferramenta de detecção de IA, a empresa disse que estava se concentrando em outras “técnicas de procedência” para atender aos requisitos de divulgação. 

Dito isso, as informações de procedência estão longe de ser uma solução definitiva. O C2PA não é juridicamente vinculativo e, sem a adoção obrigatória do padrão em toda a Internet, haverá conteúdo gerado por IA sem rótulos, diz Siwei Lyu, diretor do Center for Information Integrity e professor da Universidade de Buffalo, em Nova York. “A falta de um poder vinculante exagerado cria brechas intrínsecas nesse esforço”, diz ele, embora enfatize que o projeto é importante mesmo assim. 

Além disso, como a C2PA depende da adesão dos criadores, o protocolo não aborda realmente o problema dos malfeitores que usam conteúdo gerado por IA. E ainda não está claro o quanto o fornecimento de metadados será útil quando se trata da fluência do público na mídia. Os rótulos de proveniência não mencionam necessariamente se o conteúdo é verdadeiro ou preciso. 

Em última análise, o desafio mais significativo da coalizão pode ser incentivar a adoção generalizada em todo o ecossistema da Internet, especialmente pelas plataformas de mídia social. O protocolo foi desenvolvido para que uma foto, por exemplo, tenha informações de procedência codificadas desde o momento em que a câmera a capturou até o momento em que ela foi parar nas mídias sociais. Mas se a plataforma de mídia social não usar o protocolo, ela não exibirá os dados de procedência da foto. 

As principais plataformas de mídia social ainda não adotaram o C2PA. O Twitter (recém renomeado para X) havia aderido ao projeto, mas desistiu depois que Elon Musk assumiu o controle. (A rede social também deixou de participar de outros projetos voluntários voltados para a contenção da desinformação). 

A C2PA “[não é] uma panaceia, não resolve todos os nossos problemas de desinformação, mas estabelece uma base para uma realidade objetiva compartilhada”, diz Parsons. “Assim como a metáfora do rótulo nutricional, você não precisa olhar o rótulo nutricional antes de comprar o cereal açucarado. 

“E você não precisa saber de onde algo veio antes de compartilhá-lo no Meta, mas você pode. Achamos que a capacidade de fazer isso é fundamental, dadas as incríveis habilidades da mídia generativa.” 

Último vídeo

Nossos tópicos