O impacto dos rastreadores de IA na internet

Frequentemente tomamos a internet como algo garantido. É um oceano de informações ao alcance dos nossos dedos — e simplesmente funciona. Mas esse sistema depende de enxames de “rastreadores” — bots que percorrem a web, visitam milhões de sites todos os dias e relatam o que veem. É assim que o Google alimenta seus mecanismos de busca, como a Amazon define preços competitivos e como o Kayak agrega listagens de viagens. Além do mundo do comércio, os rastreadores são essenciais para monitorar a segurança da web, permitir ferramentas de acessibilidade e preservar arquivos históricos. Acadêmicos, jornalistas e sociedades civis também dependem deles para conduzir pesquisas investigativas cruciais.

Os rastreadores são endêmicos. Agora representando metade de todo o tráfego da internet, eles em breve superarão o tráfego humano. Esse metrô invisível da web transporta informações de site para site, dia e noite. E, recentemente, eles servem a mais um propósito: empresas como a OpenAI usam dados rastreados da web para treinar seus sistemas de inteligência artificial, como o ChatGPT.

Compreensivelmente, os sites agora estão reagindo com medo de que essa espécie invasora —os rastreadores de IA — ajude a deslocá-los. Mas há um problema: essa reação também ameaça a transparência e as fronteiras abertas da web, que permitem que aplicativos não baseados em IA prosperem. A menos que sejamos cuidadosos sobre como resolver isso, a web será cada vez mais fortificada com logins, paywalls e taxas de acesso que inibem não apenas a IA, mas a biodiversidade de usuários reais e rastreadores úteis.

Um sistema em turbulência

Para compreender o problema, é importante entender como a web funcionava até recentemente, quando rastreadores e sites operavam juntos em relativa simbiose. Os rastreadores eram em grande parte não disruptivos e podiam até ser benéficos, levando pessoas a sites a partir de mecanismos de busca como Google ou Bing em troca de seus dados. Em contrapartida, os sites impunham poucas restrições aos rastreadores, chegando a ajudá-los a navegar em seus sites. Os sites, então e agora, usam arquivos legíveis por máquina, chamados arquivos robots.txt, para especificar qual conteúdo queriam que os rastreadores deixassem de lado. Mas houve poucos esforços para aplicar essas regras ou identificar rastreadores que as ignoravam. As apostas pareciam baixas, então os sites não investiam em obstruir esses rastreadores.

Mas agora a popularidade da IA lançou o ecossistema dos rastreadores no caos.

Assim como uma espécie invasora, os rastreadores para IA têm um apetite insaciável e indiscriminado por dados, sugando artigos da Wikipedia, artigos acadêmicos e postagens no Reddit, sites de avaliações e blogs. Todas as formas de dados estão no menu — texto, tabelas, imagens, áudio e vídeo. E os sistemas de IA resultantes podem (mas nem sempre irão) ser usados de maneiras que competem diretamente com suas fontes de dados. Os sites de notícias temem que chatbots de IA atraiam seus leitores; artistas e designers temem que geradores de imagens de IA seduzam seus clientes; e fóruns de programação temem que geradores de código de IA substituam seus colaboradores.

Em resposta, os sites estão começando a recusar os rastreadores logo na entrada. O motivador é amplamente o mesmo: os sistemas de IA, e os rastreadores que os alimentam, podem minar os interesses econômicos de qualquer pessoa que publica conteúdo na web—usando os próprios dados dos sites. Essa percepção acendeu uma série de guerras entre rastreadores que se espalham abaixo da superfície.

A reação

Os editores da web responderam à IA com uma tríade de processos judiciais, legislação e ciência da computação. O que começou como uma série de processos por infração de direitos autorais, incluindo um movido pelo New York Times, transformou-se em uma onda de restrições ao uso de dados dos sites, bem como em legislações como o EU AI Act, que busca proteger o direito dos detentores de direitos autorais de optar por não participar do treinamento de IA.

No entanto, veredictos legais e legislativos podem levar anos, enquanto as consequências da adoção da IA são imediatas. Assim, no meio-tempo, os criadores de dados concentraram-se em restringir o acesso na fonte: os rastreadores da web. Desde meados de 2023, sites impuseram restrições a mais de 25% dos dados de maior qualidade. Contudo, muitas dessas restrições podem ser facilmente ignoradas, e embora grandes desenvolvedores de IA como OpenAI e Anthropic afirmem respeitar as regras dos sites, eles foram acusados de desconsiderá-las ou de sobrecarregar agressivamente os sites (o fórum técnico iFixit está entre os que fizeram essas alegações).

Agora, os sites estão recorrendo à última alternativa: tecnologias anti-rastreamento. Muitas startups emergentes (TollBit, ScalePost, etc.), além de empresas de infraestrutura web como a Cloudflare (responsável por aproximadamente 20% do tráfego global da web), começaram a oferecer ferramentas para detectar, bloquear e cobrar pelo tráfego não humano. Essas ferramentas criam obstáculos que dificultam a navegação dos sites ou exigem que os rastreadores se registrem.

Essas medidas oferecem proteção imediata. Afinal, as empresas de IA não podem usar o que não conseguem obter, independentemente de como os tribunais decidam sobre direitos autorais e uso justo. No entanto, o efeito colateral é que grandes publicadores, fóruns e sites estão erguendo barreiras contra todos os rastreadores — mesmo aqueles que não representam ameaça. Isso ocorre até mesmo quando os sites fecham acordos lucrativos com empresas de IA que desejam manter exclusividade sobre esses dados. No fim das contas, a web está sendo dividida em territórios onde cada vez menos rastreadores são bem-vindos.

O que temos a perder

À medida que esse jogo de gato e rato se acelera, os grandes players tendem a sobreviver, enquanto os pequenos sofrem. Grandes sites e publicadores podem defender seu conteúdo nos tribunais ou negociar contratos. Gigantes da tecnologia podem pagar por grandes conjuntos de dados ou criar rastreadores poderosos o suficiente para contornar as restrições. Mas pequenos criadores, como artistas visuais, educadores do YouTube ou blogueiros, podem sentir que restam apenas duas opções: esconder seu conteúdo atrás de logins e paywalls ou tirá-lo da internet completamente. Para usuários reais, isso torna mais difícil acessar notícias, ver o conteúdo de seus criadores favoritos e navegar na web sem enfrentar logins, pedidos de assinatura e captchas a cada passo.

Talvez ainda mais preocupante seja a forma como grandes contratos exclusivos com empresas de IA estão fragmentando a web. Cada novo acordo aumenta o incentivo do site para permanecer exclusivo e bloquear o acesso a qualquer outra parte—seja concorrente ou não. Isso provavelmente levará a uma maior concentração de poder nas mãos de poucos desenvolvedores de IA e grandes publicadores de dados.

Um futuro em que apenas grandes empresas possam licenciar ou rastrear dados essenciais da web suprimirá a concorrência e deixará de atender tanto aos usuários reais quanto a muitos detentores de direitos autorais.

Simplificando, seguir esse caminho reduzirá a biodiversidade da web. Rastreadores de pesquisadores acadêmicos, jornalistas e aplicativos não baseados em IA podem ser cada vez mais impedidos de ter acesso aberto. A menos que possamos cultivar um ecossistema com regras diferentes para diferentes usos de dados, podemos acabar com fronteiras rígidas na web, impondo um preço à abertura e à transparência.

Embora esse caminho não seja facilmente evitado, defensores da internet aberta podem insistir em leis, políticas e infraestrutura técnica que protejam explicitamente os usos não concorrenciais dos dados da web contra contratos exclusivos, ao mesmo tempo em que garantem a proteção dos criadores de dados e publicadores. Esses direitos não são incompatíveis. Temos muito a perder ou ganhar na luta para garantir o acesso adequado aos dados na internet. À medida que os sites buscam maneiras de se adaptar, não devemos sacrificar a web aberta no altar da IA comercial.

Shayne Longpre é doutorando no MIT, onde sua pesquisa se concentra na interseção entre IA e políticas públicas. Ele lidera a Data Provenance Initiative.

Um sistema em turbulência

A reação

O que temos a perder

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos