Como contaminar os dados que as Big Techs usam para vigiar você
Inteligência artificial

Como contaminar os dados que as Big Techs usam para vigiar você

Algoritmos não têm sentido sem bons dados. O público pode explorar isso para exigir mudanças.

Todos os dias, sua vida deixa um rastro de migalhas digitais que os gigantes da tecnologia usam para monitorá-lo.  Você envia um e-mail, pede comida, assiste a um show por stream.  Eles recebem pacotes de dados valiosos para aumentar a compreensão de suas preferências.  Esses dados são alimentados por algoritmos de machine learning que segmentam anúncios e recomendações específicos e personalizados.  O Google coleta seus dados em mais de US $ 120 bilhões por ano em receita de anúncios.

Cada vez mais, estamos reféns desse sistema. Em 2019, Kashmir Hill, então repórter do Gizmodo, tentou  tirar cinco grandes gigantes da tecnologia de sua vida.  Ela passou seis semanas infeliz, lutando para realizar funções digitais básicas.  Os gigantes da tecnologia, por sua vez, nem mesmo sentiram cócegas.

Agora, pesquisadores da Northwestern University, localizada em Evanston, Illinois, Estados Unidos, estão sugerindo novas maneiras de corrigir esse desequilíbrio de poder, tratando nossos dados coletivos como moeda de troca.  Os gigantes da tecnologia podem ter algoritmos sofisticados à sua disposição, mas eles não fazem sentido sem dados suficientes para treinar.

Em  um novo artigo  apresentado na  conferência da  Association for Computing Machinery’s  Fairness, Accountability e Transparency esse mês, pesquisadores, incluindo os estudantes de doutorado Nicholas Vincent e  Hanlin  Li, propõem três maneiras que o público pode explorar isso a seu favor:

  • Greves de dados, inspiradas na ideia de greves trabalhistas, envolvem a retenção e a exclusão de seus dados para que uma empresa de tecnologia não possa usá-los — saindo de uma plataforma ou instalando ferramentas de privacidade, por exemplo.
  • Contaminação de dados, que envolve o fornecimento de dados sem sentido ou prejudiciais.  AdNauseam, por exemplo, é uma extensão de navegador que clica em cada anúncio veiculado para você, confundindo os algoritmos de segmentação de anúncios do Google.
  • Contribuição consciente de dados, que envolve o fornecimento de informações significativos para o concorrente de uma plataforma que você quiser protestar, como fazendo o upload de suas fotos no Tumblr ao invés do Facebook.

As pessoas já usam muitas dessas táticas para proteger sua própria privacidade.  Se você já usou um bloqueador de anúncios ou outra extensão de navegador que modifica seus resultados de pesquisa para excluir determinados sites, você se envolveu na coleta de dados e reivindicou alguma agência sobre o uso de seus dados.  Mas, como Hill descobriu, ações individuais esporádicas como essas não fazem muito para fazer os gigantes da tecnologia mudarem seus comportamentos.

E se milhões de pessoas se coordenassem para contaminar direito os dados de um gigante da tecnologia?  Isso poderia dar-lhes alguma vantagem para fazer valer suas demandas.

Já pode ter havido alguns exemplos disso.  Em janeiro desse ano, milhões de usuários excluíram suas contas do WhatsApp e mudaram para concorrentes como Signal e Telegram depois que o Facebook anunciou que começaria a compartilhar dados do WhatsApp com o resto da empresa.  O êxodo fez com que o Facebook  atrasasse  as mudanças de política.

Ainda esse mês, o Google  também anunciou  que iria parar de monitorar indivíduos na web e direcionar anúncios para eles.  Embora não esteja claro se isso é uma mudança real ou apenas uma reformulação de marca, diz Vincent, é possível que o aumento do uso de ferramentas como AdNauseam tenha contribuído para essa decisão ao degradar a eficácia dos algoritmos da empresa.  (Claro, é difícil dizer. “A única pessoa que realmente sabe quão efetivamente um movimento de aproveitamento de dados impactou um sistema é a empresa de tecnologia”, diz ele.)

Vincent e Li acreditam que essas campanhas podem complementar estratégias como a defesa de políticas e a organização dos trabalhadores no movimento de resistência à Big Tech.

“É empolgante ver esse tipo de trabalho”, diz Ali Alkhatib, pesquisador do Centro de Ética em Dados Aplicados da Universidade de São Francisco, que não esteve envolvido na pesquisa.  “Foi muito interessante vê-los pensando sobre a visão coletiva ou holística: podemos mexer no poço e fazer demandas com essa ameaça, porque são os nossos dados e tudo vai para esse lugar”.

Ainda há trabalho a ser feito para tornar essas campanhas mais difundidas.  Os cientistas da computação poderiam desempenhar um papel importante na fabricação de mais ferramentas como o  AdNauseam, por exemplo, o que ajudaria a diminuir a barreira para a participação em tais táticas.  Os legisladores também podem ajudar.  Os ataques de dados são mais eficazes quando apoiados por fortes leis de privacidade de dados, como o Regulamento Geral de Proteção de Dados da União Europeia (GDPR), que dá aos consumidores o direito de solicitar a exclusão de seus dados.  Sem essa regulamentação, é mais difícil garantir que uma empresa de tecnologia lhe dará a opção de limpar seus registros digitais, mesmo que você remova sua conta.

E algumas perguntas ainda precisam ser respondidas.  De quantas pessoas uma greve de dados precisa para prejudicar o algoritmo de uma empresa?  E que tipo de dados seriam mais eficazes para contaminar um determinado sistema?  Em uma simulação envolvendo um algoritmo de recomendação de filmes, por exemplo, os pesquisadores descobriram que se 30% dos usuários entrassem em greve, isso poderia reduzir a precisão do sistema em 50%.  Mas cada sistema de machine learning é diferente e as empresas os atualizam constantemente.  Os pesquisadores esperam que mais pessoas na comunidade de machine learning possam executar simulações semelhantes de sistemas de empresas diferentes e identificar suas vulnerabilidades.

Alkhatib sugere que os acadêmicos devem fazer mais pesquisas sobre como inspirar a ação coletiva de dados também.  “A ação coletiva é muito difícil”, diz ele.  “Fazer com que as pessoas sigam as ações em andamento é um desafio.  E então há o desafio de como você mantém um grupo de pessoas que são muito transitórias — neste caso, podem ser pessoas que estão usando um mecanismo de pesquisa por cinco segundos — para se verem como parte de uma comunidade que realmente tem longevidade?”

Essas táticas também podem ter consequências posteriores que precisam de um exame cuidadoso, acrescenta.  A contaminação de dados poderia acabar apenas aumentando o trabalho de moderadores de conteúdo e outras pessoas encarregadas de limpar e rotular os dados de treinamento das empresas?

Mas, no geral, Vincent, Li e Alkhatib estão otimistas de que o aproveitamento de dados pode se transformar em uma ferramenta persuasiva para moldar como os gigantes da tecnologia tratam nossos dados e nossa privacidade.  “Os sistemas de Inteligência Artificial dependem de dados.  É apenas um fato sobre como eles funcionam”, diz Vincent.  “Em última análise, é uma forma de o público ganhar poder”.

Nossos tópicos