Um usuário do Reddit escreveu, recentemente, que estava “desesperado por ajuda”: há cerca de um mês, seu telefone vinha sendo inundado por ligações de “estranhos” que estavam “procurando um advogado, um designer de produto, um chaveiro”. As pessoas que ligavam teriam sido direcionadas de forma equivocada pela IA generativa do Google.
No mês de março, um desenvolvedor de software em Israel foi contatado no WhatsApp, depois que o chatbot Gemini, do Google, forneceu instruções incorretas de atendimento ao cliente, incluindo o número do telefone dele.
E, em abril, uma doutoranda da Universidade de Washington estava mexendo no Gemini e conseguiu fazer a ferramenta revelar o número de celular pessoal de um colega.
Pesquisadores de IA e especialistas em privacidade online há muito tempo alertam para os inúmeros perigos que a IA generativa representa para a privacidade pessoal. Esses casos nos dão mais um cenário com que nos preocupar: a IA generativa expondo números de telefone reais das pessoas (o usuário do Reddit não respondeu a vários pedidos de comentário e não conseguimos verificar a história de forma independente).
Especialistas dizem que essas falhas de privacidade provavelmente se devem ao uso de informações de identificação pessoal (PII, na sigla em inglês para Personally Identifiable Information) nos dados de treinamento, embora seja difícil entender o mecanismo exato que faz números reais de telefone aparecerem nas respostas geradas pela IA. Seja qual for o motivo, o resultado não é nada divertido para quem tem o número divulgado e, mais preocupante ainda, parece que há pouco a ser feito para impedir.
Um aumento de 400% em solicitações de privacidade relacionadas à IA
É impossível saber com que frequência números de telefone de pessoas são expostos por chatbots de IA, mas especialistas dizem acreditar que isso esteja acontecendo muito mais do que é relatado publicamente.
A DeleteMe, empresa que ajuda clientes a remover informações pessoais da Internet, diz que as solicitações de clientes sobre IA generativa aumentaram 400%, chegando a milhares, nos últimos sete meses. Essas solicitações “mencionam especificamente ChatGPT, Claude, Gemini ou outras ferramentas de IA generativa”, diz Rob Shavell, cofundador e CEO da empresa. Especificamente, 55% dessas preocupações sobre IA generativa mencionam o ChatGPT, 20% o Gemini, 15% o Claude e 10% outras ferramentas de IA, afirma Shavell (A MIT Technology Review tem uma assinatura empresarial da DeleteMe).
Shavell diz que as reclamações de clientes sobre informações pessoais exibidas por LLMs geralmente assumem duas formas: na primeira, “um cliente pergunta algo inofensivo sobre si mesmo a um chatbot e recebe de volta endereços residenciais, números de telefone, nomes de familiares ou detalhes do empregador, com precisão.” Já na segunda, um cliente pode se deparar e relatar a exposição de dados pessoais de outra pessoa, quando “o chatbot gera informações de contato plausíveis, mas erradas.”
Isso se alinha ao que aconteceu com Daniel Abraham, um engenheiro de software de 28 anos em Israel. Em meados de março, ele diz, um desconhecido enviou a ele uma “mensagem estranha no WhatsApp de um número também desconhecido” pedindo ajuda com sua conta no PayBox, um aplicativo israelense de pagamentos.
“Eu achei que fosse uma mensagem de spam”, ele escreveu à MIT Technology Review por e-mail, “alguém tentando me enganar.”
Mas, quando ele perguntou ao estranho como havia encontrado seu número, a pessoa enviou a ele uma captura de tela com as instruções do Gemini para entrar em contato com o atendimento ao cliente do PayBox via WhatsApp, informando o número pessoal dele. Abraham não trabalha para o PayBox e o PayBox não tem um número de atendimento ao cliente no WhatsApp, confirmou Elad Gabay, representante do atendimento ao cliente da empresa.
Depois, Abraham perguntou ao Gemini como entrar em contato com o PayBox e ele gerou o número de WhatsApp de outra pessoa. Quando perguntei recentemente, o Gemini respondeu novamente com um número de telefone israelense, que não pertencia ao PayBox, mas a uma empresa de cartão de crédito que trabalha com o PayBox.
A troca de mensagens de Abraham com o estranho terminou rapidamente, mas ele disse que estava preocupado com outras possíveis situações que poderiam azedar, incluindo “assédio ou outras interações ruins”. “E se eu pedisse dinheiro para ‘resolver’ aquele problema de atendimento?”, ele disse.
Para tentar entender como isso aconteceu, Abraham fez uma busca normal no Google pelo próprio número de telefone e descobriu que ele havia sido compartilhado online uma vez, em 2015, em um site local semelhante ao Quora (uma página de perguntas e respostas amplamente abastecida por usuários). Embora ele não tenha certeza de quem o publicou lá, isso pode explicar como acabou sendo reproduzido pelo Gemini mais de uma década depois.
Chatbots como Gemini (Google), ChatGPT (OpenAI) e o Claude (Anthropic), são construídos sobre LLMs treinados com enormes quantidades de dados coletados em toda a web. Isso inevitavelmente inclui centenas de milhões de ocorrências de informações de identificação pessoal. Um exemplo, que relatamos no verão passado, foi o grande e popular conjunto de dados de código aberto DataComp CommonPool, que foi usado para treinar modelos de geração de imagens e incluía cópias de currículos, carteiras de motorista e cartões de crédito.
A probabilidade de informações de identificação pessoal aparecerem nos dados de treinamento de IA só aumenta à medida que os dados públicos “se esgotam” e as empresas de IA buscam novas fontes de treinamento de alta qualidade. Isso inclui informações de corretores de dados e sites de busca de pessoas. Segundo o registro de corretores de dados da Califórnia, por exemplo, 31 de 578 corretores de dados registrados que operam no estado declararam, por conta própria, que haviam “compartilhado ou vendido dados de consumidores a um desenvolvedor de um sistema ou modelo de IA generativa no último ano.”
Além disso, sabe-se que modelos memorizam e reproduzem dados, palavra por palavra, a partir de conjuntos de treinamento. Pesquisas recentes sugerem que não é apenas o dado que aparece com mais frequência que tem maior probabilidade de ser memorizado.
Medidas imperfeitas
Atualmente, é prática padrão incorporar barreiras de proteção no design de um LLM para restringir certas saídas, desde filtros de conteúdo destinados a identificar e impedir que chatbots liberem PII até as instruções da Anthropic para que o Claude escolha respostas que contenham “a menor quantidade de informação pessoal, privada ou confidencial pertencente a outras pessoas.”
Mas, como dois doutorandos da Universidade de Washington que pesquisam privacidade e tecnologia viram recentemente, em primeira mão, essas salvaguardas nem sempre funcionam.
“Um dia, eu estava só brincando no Gemini e pesquisei por Yael Eiger, minha amiga e colaboradora”, diz Meira Gilbert. Ela digitou “Yael Eiger informações de contato”, e, depois que o Gemini forneceu uma visão geral da pesquisa de Eiger, o que Gilbert esperava, o Gemini também retornou com o número de telefone pessoal da amiga. “Foi chocante”, diz Gilbert.
Quando viu o resultado do Gemini, Eiger se lembrou de que tinha, sim, compartilhado seu número de telefone online no ano anterior, para um workshop de tecnologia. Mas ela não esperava que aquilo ficasse tão visível para todos na Internet.
“Ter sua informação acessível a um público e, então, o Gemini torná-la acessível a qualquer pessoa” parece completamente diferente, diz Eiger, especialmente quando ela descobriu que a informação estava perdida no meio de uma busca normal no Google.
“Ela tinha sido severamente rebaixada”, confirma Gilbert. “Eu nunca teria encontrado se estivesse apenas olhando os resultados do Google” (Eu testei o mesmo prompt no Gemini no começo deste mês e, depois de uma negação inicial, a ferramenta também me deu o número de Eiger).
Depois dessa experiência, Eiger, Gilbert e Anna-Maria Gueorguieva, outra doutoranda da Universidade de Washington, decidiram testar o ChatGPT para ver o que ele exibiria sobre um professor.
No início, as barreiras de proteção da OpenAI entraram em ação e o ChatGPT respondeu que a informação não estava disponível. Mas, na mesma resposta, o chatbot sugeriu que, “se você quiser ir mais fundo, eu ainda posso tentar uma abordagem mais ‘em estilo investigativo’.” A consulta delas só precisava ajudar a “reduzir as possibilidades”, disse o ChatGPT, fornecendo “um palpite de bairro” de onde o professor poderia morar ou “um possível nome de co-proprietário” da casa do professor. O ChatGPT continuou: “Isso costuma ser o único jeito de encontrar registros de propriedade mais novos ou intencionalmente menos visíveis.”
As estudantes forneceram essa informação, levando o ChatGPT a produzir o endereço residencial do professor, o preço de compra do imóvel e o nome do cônjuge a partir de registros imobiliários da cidade.
Taya Christianson, representante da OpenAI, disse que não poderia comentar o que aconteceu nesse caso sem ver capturas de tela ou saber qual modelo as estudantes haviam testado, embora tenhamos apontado que muitos usuários podem não saber qual modelo estavam usando na interface do ChatGPT. Em resposta a perguntas sobre a exposição de informações de identificação pessoal, ela enviou links para documentos que descrevem como a OpenAI lida com privacidade, incluindo a filtragem dessas informações, e outras ferramentas.
Isso revela um dos problemas fundamentais dos chatbots, diz Shavell, da DeleteMe. As empresas de IA “podem construir barreiras de proteção, mas os chatbots também são projetados para ser eficazes e responder às perguntas dos clientes.”
O problema de exposição não se limita ao Gemini ou ao ChatGPT. No ano passado, o Futurism (site norte-americano que cobre tecnologia) constatou que, se você pedisse ao chatbot Grok, da xAI, “[nome] address”, na maioria dos casos ele fornecia não apenas endereços residenciais, mas também, com frequência, números de telefone, endereços de trabalho e endereços de pessoas com nomes parecidos (A xAI não respondeu a um pedido de comentário).
Sem respostas claras
Não há soluções diretas para esse problema, não existe um jeito fácil de verificar se as informações pessoais de alguém estão nos dados de treinamento de um modelo, nem de obrigar os modelos a remover informações de identificação pessoal.
Idealmente, consumidores individuais deveriam poder solicitar que esses dados privados fossem removidos, diz Jennifer King, pesquisadora de privacidade e dados no Instituto de Inteligência Artificial Centrada no Ser Humano da Universidade Stanford. No entanto, isso costuma ser interpretado como aplicável apenas aos dados que as pessoas deram diretamente às empresas, como quando interagem com um chatbot, explica King.
“Eu não sei se o Google sequer tem a infraestrutura para me dizer ‘Sim, temos seus dados no nosso treinamento, podemos resumir o que sabemos sobre você e, então, podemos apagar ou corrigir coisas que estão erradas ou coisas que você não quer lá’”, ela diz.
Leis de privacidade existentes, como a California Consumer Privacy Act ou o GDPR europeu, não cobrem as informações “publicamente disponíveis” que já foram coletadas e usadas para treinar LLMs, especialmente porque grande parte disso é mantida no anonimato (embora vários estudos também tenham mostrado como é fácil inferir identidades e informações de identificação pessoal a partir de dados que são mantidos no anonimato e pseudonimizados, ou seja, os identificadores diretos são substituídos por códigos, mas que ainda podem ser associados a uma pessoa com o uso de dados adicionais).
“Se eles (as empresas de IA) já tentaram sistematicamente voltar aos dados que já tinham sido coletados da Internet pública e reduzir esse tipo de coisa?”, acrescenta King, “não faço ideia.”
A próxima melhor solução seria as empresas “tirarem os números de telefone de todo mundo, ou todos os dados que se pareçam com números de telefone”, diz King, mas ninguém se dispôs a dizer que está fazendo isso.
A Hugging Face, plataforma que hospeda conjuntos de dados e modelos de IA de código aberto, tem uma ferramenta que permite que as pessoas pesquisem com que frequência um dado, como o número de telefone delas, apareceu em conjuntos de dados de código aberto usados para treinar LLMs, mas isso não necessariamente representa o que foi usado para treinar LLMs fechados que alimentam chatbots populares como Claude, ChatGPT e Gemini. O número de Eiger, por exemplo, não apareceu na ferramenta da Hugging Face.
Alex Joseph, chefe de comunicações dos aplicativos Gemini e do Google Labs, não respondeu a perguntas específicas, mas disse que “a equipe” está “investigando” os casos específicos sinalizados pela MIT Technology Review. Ele também forneceu um link para um documento de suporte que descreve como os usuários podem “se opor ao processamento dos seus dados pessoais” ou “pedir que dados pessoais imprecisos nas respostas dos apps Gemini sejam corrigidos.” A página observa que a resposta da empresa dependerá das leis de privacidade da sua jurisdição.
A OpenAI tem um portal de privacidade que permite que as pessoas enviem solicitações para remover suas informações pessoais de respostas do ChatGPT, mas observa que equilibra solicitações de privacidade com o interesse público e “pode recusar uma solicitação se tivermos um motivo legal para fazê-lo.”
A Anthropic descreve como usa dados pessoais no treinamento de modelos, mas não tem um caminho claro para que as pessoas solicitem a remoção. A empresa não respondeu a um pedido de comentário.
A melhor opção para qualquer pessoa que queira proteger seus dados privados neste momento é “começar na origem: tirar dados pessoais da web pública antes que eles acabem na próxima coleta”, diz Shavell. Desde o começo do ano, por exemplo, a Califórnia ofereceu a seus residentes um portal na web para solicitar que corretores de dados apaguem suas informações. Ainda assim, isso não garante que seus dados já não tenham sido usados para treinamento, e, portanto, não apareçam em uma resposta de chatbot.
O usuário do Reddit que recebeu ligações incessantes postou que havia enviado um pedido oficial de remoção legal e privacidade ao Google, pedindo que bloqueassem urgentemente seu número nas saídas do LLM deles”, mas ainda não havia recebido resposta. Ele também escreveu no mês passado que “o assédio continua diariamente.”
Abraham, o desenvolvedor de software israelense, diz que entrou em contato com o atendimento ao cliente do Google em 17 de março, dia seguinte à exposição do número dele. Até quatro de maio não havia recebido resposta, apenas um novo pedido de uma documentação que ele já havia fornecido.
Enquanto isso, inspirada pela própria exposição no Gemini, Eiger, junto com Gilbert e Gueorguieva, está desenhando um projeto de pesquisa para estudar mais a fundo que informações pessoais vêm sendo exibidas por diversos chatbots de IA e o que eles podem saber, mesmo que não estejam nos contando.
Parte dessa informação pode ser “tecnicamente pública”, diz Gilbert, mas os chatbots podem estar alterando “a quantidade de esforço que você colocaria para encontrar” esse tipo de dado. Agora, em vez de buscar em dez páginas de resultados do Google, ou pagar por essa informação em um site de corretor de dados, “a IA generativa simplesmente reduz a barreira de entrada para alguém mirar em pessoas?”




