Dois futuros.
Hans de Zwart, um professor de educação física que se tornou defensor dos direitos digitais, diz que, quando viu o plano de Amsterdã para usar um algoritmo para avaliar todos os solicitantes de benefícios sociais da cidade quanto a possíveis fraudes, ele quase caiu da cadeira.
De acordo com a documentação da cidade, esse modelo específico de IA, conhecido como “Smart Check”, analisaria as submissões de potenciais beneficiários de assistência social e determinaria quem poderia ter apresentado um pedido incorreto. Mais do que qualquer outro projeto que tivesse chegado à sua mesa, este se destacou imediatamente, disse ele, e não de uma forma positiva. “Há alguns problemas muito fundamentais [e] impossíveis de corrigir,” afirma ele, ao falar sobre o uso desse algoritmo “em pessoas reais.”
De sua posição atrás da ampla curva de janelas de vidro na prefeitura de Amsterdã, Paul de Koning, um consultor da cidade cujo currículo inclui passagens por várias agências no sistema de bem-estar social holandês, observava o mesmo sistema com orgulho. De Koning, que gerenciou a fase piloto do Smart Check, estava empolgado com o que via como o potencial do projeto para melhorar a eficiência e remover o viés do sistema de benefícios sociais de Amsterdã.
Uma equipe de investigadores de fraudes e cientistas de dados havia passado anos trabalhando no Smart Check, e de Koning acreditava que os promissores resultados iniciais haviam validado sua abordagem. A cidade consultou especialistas, fez testes de viés, implementou salvaguardas técnicas e solicitou feedback das pessoas que seriam afetadas pelo programa, seguindo, mais ou menos, todas as recomendações do manual de IA ética. “Eu tive uma boa sensação,” disse ele.
Esses pontos de vista opostos representam um debate global sobre se os algoritmos podem algum dia ser justos ao tomarem decisões que moldam a vida das pessoas. Nos últimos anos de esforços para usar a inteligência artificial dessa forma, exemplos de danos colaterais se acumularam: candidatos a emprego não brancos sendo eliminados dos processos seletivos nos EUA, famílias sendo injustamente sinalizadas para investigações de abuso infantil no Japão e moradores de baixa renda sendo negados em programas de subsídios alimentares na Índia.
Os defensores desses sistemas de avaliação argumentam que eles podem criar serviços públicos mais eficientes, fazendo mais com menos e, no caso dos sistemas de bem-estar, recuperando dinheiro que estaria sendo perdido dos cofres públicos. Na prática, muitos desses sistemas foram mal projetados desde o início. Às vezes, eles levam em conta características pessoais de uma forma que leva à discriminação, e, às vezes, foram implantados sem testar o viés ou a eficácia. Em geral, oferecem poucas opções para as pessoas contestarem, ou mesmo entenderem, as ações automatizadas que afetam diretamente como elas vivem.
O resultado foi mais de uma década de escândalos. Em resposta, legisladores, burocratas e o setor privado, de Amsterdã a Nova York, de Seul a Cidade do México, têm tentado se redimir criando sistemas algorítmicos que integram os princípios da “IA responsável”, uma abordagem que visa guiar o desenvolvimento da IA para beneficiar a sociedade enquanto minimiza consequências negativas.
Desenvolver e implantar IA ética é uma prioridade para a União Europeia, e o mesmo era verdade para os Estados Unidos sob o ex-presidente Joe Biden, que lançou um esboço para uma Carta de Direitos da IA. Esse plano foi revogado pela administração Trump, que removeu considerações de equidade e justiça, incluindo na tecnologia, no nível nacional. No entanto, sistemas influenciados por esses princípios ainda estão sendo testados por líderes em países, estados, províncias e cidades, que têm imenso poder para tomar decisões como quem contratar, quando investigar casos de possível abuso infantil e quais moradores devem receber serviços prioritariamente.
Amsterdã realmente achava que estava no caminho certo. Os funcionários da cidade no departamento de bem-estar social acreditavam que poderiam construir uma tecnologia que impediria fraudes enquanto protegia os direitos dos cidadãos. Eles seguiram essas melhores práticas emergentes e investiram uma quantidade imensa de tempo e dinheiro em um projeto que, eventualmente, processou aplicações de bem-estar social em tempo real. Mas, em seu piloto, descobriram que o sistema que haviam desenvolvido ainda não era justo nem eficaz. Por quê?
Lighthouse Reports, MIT Technology Review e o jornal holandês Trouw tiveram acesso sem precedentes ao sistema para tentar descobrir. Em resposta a um pedido de registros públicos, a cidade divulgou várias versões do algoritmo Smart Check e dados sobre como ele avaliava solicitantes reais de benefícios sociais, oferecendo-nos uma visão única sobre se, nas melhores condições possíveis, sistemas algorítmicos podem cumprir suas promessas ambiciosas.
A resposta para essa questão está longe de ser simples. Para de Koning, o Smart Check representava um progresso tecnológico em direção a um sistema de bem-estar mais justo e transparente. Para de Zwart, ele representava um risco substancial aos direitos dos beneficiários de bem-estar, que nenhum ajuste técnico poderia corrigir. À medida que esse experimento algorítmico se desenrolava ao longo de vários anos, ele colocou em questão a premissa central do projeto: se a IA responsável pode ser mais do que um experimento teórico ou um ponto de venda corporativo, e realmente tornar os sistemas algorítmicos justos no mundo real.
Uma chance de redenção
Entender como Amsterdã se viu conduzindo um empreendimento de alto risco com prevenção de fraudes movida por IA requer voltar quatro décadas, até um escândalo nacional sobre investigações de bem-estar que extrapolaram os limites.
Em 1984, Albine Grumböck, uma mãe solteira divorciada de três filhos, recebia benefícios sociais há vários anos quando soube que um de seus vizinhos, um funcionário do escritório local de serviços sociais, havia espionado sua vida secretamente. Ele documentou visitas de um amigo do sexo masculino, que, teoricamente, poderia ter contribuído com uma renda não declarada para a família. Com base em suas observações, o escritório de bem-estar cortou os benefícios de Grumböck. Ela contestou a decisão na justiça e venceu.
Apesar de seu protesto pessoal, a política de bem-estar dos Países Baixos continuou a empoderar os investigadores de fraudes de bem-estar, às vezes chamados de “contadores de escova de dentes”, para revirar a vida das pessoas. Isso ajudou a criar uma atmosfera de desconfiança que leva a problemas para ambos os lados, diz Marc van Hoof, advogado que ajudou beneficiários de bem-estar dos Países Baixos a navegar pelo sistema durante décadas: “O governo não confia em seu povo, e o povo não confia no governo.”
Harry Bodaar, um servidor público de carreira, observou de perto a política de bem-estar dos Países Baixos ao longo de grande parte desse tempo: primeiro como assistente social, depois como investigador de fraudes e agora como consultor de políticas de bem-estar da cidade. Os últimos 30 anos lhe mostraram que “o sistema é sustentado por elásticos e grampas,” diz ele. “E se você está na base desse sistema, você é o primeiro a cair nas lacunas.”
Fazer o sistema funcionar melhor para os beneficiários, acrescenta ele, foi um grande fator motivador quando a cidade começou a projetar o Smart Check em 2019. “Queríamos fazer uma verificação justa apenas nas pessoas que realmente achávamos que precisavam ser verificadas,” diz Bodaar, em contraste com a política anterior do departamento, que até 2007 era realizar visitas domiciliares para cada solicitante.
Mas ele também sabia que os Países Baixos haviam se tornado um tipo de “ponto zero” para implantações problemáticas de IA no bem-estar social. As tentativas do governo holandês de modernizar a detecção de fraudes por meio da IA haviam falhado em algumas ocasiões notórias.
Em 2019, foi revelado que o governo nacional estava usando um algoritmo para criar perfis de risco, com a esperança de ajudar a identificar fraudes no sistema de benefícios de creche. O escândalo resultante viu quase 35.000 pais, a maioria migrantes ou filhos de migrantes, sendo erroneamente acusados de fraudar o sistema de assistência ao longo de seis anos. Isso colocou famílias em dívida, empurrou algumas para a pobreza e, por fim, levou toda a administração a renunciar em 2021.
Em Roterdã, uma investigação de 2023 realizada pela Lighthouse Reports sobre um sistema de detecção de fraudes no bem-estar social descobriu que ele era tendencioso contra mulheres, pais, pessoas que não falam holandês nativo e outros grupos vulneráveis, o que acabou forçando a cidade a suspender o uso do sistema. Outras cidades, como Amsterdã e Leiden, usaram um sistema chamado Fraud Scorecard, que foi implantado pela primeira vez há mais de 20 anos e incluía educação, bairro, paternidade e gênero como fatores de risco rudimentares para avaliar os solicitantes de benefícios sociais. Esse programa também foi descontinuado.
Os Países Baixos não estão sozinhos. Nos Estados Unidos, houve pelo menos 11 casos em que governos estaduais usaram algoritmos para ajudar a distribuir benefícios públicos, segundo o Benefits Tech Advocacy Hub, uma ONG, frequentemente com resultados problemáticos. Michigan, por exemplo, acusou falsamente 40.000 pessoas de cometer fraudes no seguro-desemprego. E na França, ativistas estão processando a autoridade nacional de bem-estar por causa de um algoritmo que, segundo eles, discrimina solicitantes de baixa renda e pessoas com deficiências.
Essa sequência de escândalos, além de uma crescente conscientização sobre como a discriminação racial pode ser incorporada nos sistemas algorítmicos, ajudou a impulsionar a ênfase crescente na IA responsável. “Isso se tornou um termo guarda-chuva para dizer que precisamos pensar não apenas em ética, mas também em justiça”, diz Jiahao Chen, consultor de IA ética que forneceu serviços de auditoria tanto para entidades privadas quanto para governos locais. “Acho que estamos vendo essa percepção de que precisamos de coisas como transparência e privacidade, segurança e proteção, e assim por diante.”
A abordagem, baseada em um conjunto de ferramentas destinadas a controlar os danos causados pela tecnologia em proliferação, deu origem a um campo em rápido crescimento construído sobre uma fórmula familiar: white papers e frameworks de think tanks e órgãos internacionais, além de uma indústria de consultoria lucrativa formada por grandes players tradicionais, como as Big 5 consultorias, assim como uma série de startups e ONGs. Em 2019, por exemplo, a Organização para Cooperação e Desenvolvimento Econômico (OCDE), um organismo global de políticas econômicas, publicou seus Princípios sobre Inteligência Artificial como um guia para o desenvolvimento de “IA confiável”. Esses princípios incluem a construção de sistemas explicáveis, a consulta a partes interessadas públicas e a realização de auditorias.
Mas o legado deixado por décadas de má conduta algorítmica tem se mostrado difícil de superar, e há pouco consenso sobre onde traçar a linha entre o que é justo e o que não é. Enquanto os Países Baixos trabalham para instituir reformas moldadas pela IA responsável no nível nacional, a Algorithm Audit, uma ONG holandesa que tem prestado serviços de auditoria de IA ética para ministérios governamentais, concluiu que a tecnologia deve ser usada para fazer perfis de beneficiários de bem-estar apenas sob condições estritamente definidas e somente se os sistemas evitarem levar em conta características protegidas, como gênero. Enquanto isso, a Anistia Internacional, defensores dos direitos digitais como de Zwart, e alguns próprios beneficiários de bem-estar argumentam que, quando se trata de tomar decisões sobre a vida das pessoas, como no caso dos serviços sociais, o setor público não deveria usar IA de forma alguma.
Amsterdã esperava ter encontrado o equilíbrio certo. “Aprendemos com as coisas que aconteceram antes de nós,” diz Bodaar, o consultor de políticas, sobre os escândalos passados. E desta vez, a cidade queria construir um sistema que “mostrasse ao povo de Amsterdã que fazemos o bem e fazemos o justo.”
Encontrando uma maneira melhor
Toda vez que um residente de Amsterdã solicita benefícios, um assistente social revisa a aplicação em busca de irregularidades. Se uma aplicação parecer suspeita, ela pode ser enviada para o departamento de investigações da cidade, o que pode levar a uma rejeição, a um pedido para corrigir erros na documentação ou a uma recomendação para que o candidato receba menos dinheiro. Investigações também podem acontecer mais tarde, após a distribuição dos benefícios; o resultado pode forçar os beneficiários a devolverem os fundos, e até mesmo empurrar alguns para a dívida.
Os funcionários têm ampla autoridade sobre os solicitantes e beneficiários existentes. Eles podem solicitar registros bancários, convocar os beneficiários para a prefeitura e, em alguns casos, fazer visitas não anunciadas à casa de uma pessoa. À medida que as investigações são realizadas, ou erros na documentação corrigidos, pagamentos tão necessários podem ser atrasados. E muitas vezes a cidade não encontra evidências de irregularidade. Isso acontece em mais da metade das investigações de solicitações, segundo números fornecidos por Bodaar. Nesses casos, isso pode significar que a cidade “incomodou indevidamente as pessoas,” diz Bodaar.
O sistema Smart Check foi projetado para evitar esses cenários ao substituir, eventualmente, o assistente social inicial, responsável por identificar quais casos devem ser enviados para o departamento de investigações. O algoritmo faria a triagem das solicitações para identificar aquelas mais propensas a envolver erros graves, com base em certas características pessoais, e redirecionaria esses casos para uma análise mais aprofundada pela equipe de fiscalização.
Se tudo corresse bem, escreveu a cidade em sua documentação interna, o sistema melhoraria o desempenho de seus assistentes sociais humanos, sinalizando menos solicitantes de benefícios para investigação, enquanto identificaria uma maior proporção de casos com erros. Em um dos documentos, a cidade projetou que o modelo impediria até 125 cidadãos de enfrentarem cobrança de dívidas e economizaria €2,4 milhões anualmente.
O Smart Check era uma perspectiva empolgante para os funcionários da cidade como Paul de Koning, que gerenciaria o projeto quando ele fosse implementado. Ele estava otimista, já que a cidade estava adotando uma abordagem científica, como ele diz; “veria se funcionaria” em vez de adotar a postura de “isso tem que funcionar, e, não importa o quê, vamos continuar com isso.”
Era o tipo de ideia ousada que atraía técnicos otimistas como Loek Berkers, um cientista de dados que trabalhou no Smart Check em seu segundo emprego após a faculdade. Falando em um café escondido atrás da prefeitura de Amsterdã, Berkers se lembra de ter ficado impressionado no primeiro contato com o sistema: “Especialmente para um projeto dentro da prefeitura,” ele diz, “era muito um tipo de projeto inovador que estava tentando algo novo.”
O Smart Check utilizava um algoritmo chamado “máquina de aumento explicável”, que permite que as pessoas compreendam mais facilmente como os modelos de IA produzem suas previsões. A maioria dos outros modelos de machine-learning é frequentemente considerada uma “caixa preta”, rodando processos matemáticos abstratos que são difíceis de entender tanto para os funcionários responsáveis por usá-los quanto para as pessoas afetadas pelos resultados.
O modelo do Smart Check consideraria 15 características, incluindo se os solicitantes haviam solicitado ou recebido benefícios anteriormente, a soma de seus bens e o número de endereços registrados, para atribuir um score de risco a cada pessoa. Ele evitava propositalmente fatores demográficos, como gênero, nacionalidade ou idade, que poderiam levar a um viés. Também tentava evitar fatores “proxy”, como códigos postais, que podem não parecer sensíveis à primeira vista, mas podem se tornar, por exemplo, se um código postal for estatisticamente associado a um grupo étnico específico.
Em uma medida incomum, a cidade divulgou essas informações e compartilhou várias versões do modelo Smart Check conosco, efetivamente convidando o escrutínio externo sobre o design e a função do sistema. Com esses dados, fomos capazes de criar um hipotético beneficiário de bem-estar para obter uma visão de como um solicitante individual seria avaliado pelo Smart Check.
Esse modelo foi treinado com um conjunto de dados abrangendo 3.400 investigações anteriores de beneficiários de bem-estar. A ideia era que ele usasse os resultados dessas investigações, realizadas por funcionários da cidade, para descobrir quais fatores nas solicitações iniciais estavam correlacionados com potenciais fraudes.
Mas usar investigações passadas traz problemas potenciais desde o início, diz Sennay Ghebreab, diretor científico do Civic AI Lab (CAIL) da Universidade de Amsterdã, um dos grupos externos com os quais a cidade afirma ter consultado. O problema de usar dados históricos para construir os modelos, ele explica, é que “acabaremos [com] vieses históricos.” Por exemplo, se os assistentes sociais historicamente cometeram mais erros com um grupo étnico específico, o modelo poderia aprender incorretamente a prever que esse grupo étnico comete fraudes em taxas mais altas.
A cidade decidiu que auditaria rigorosamente seu sistema para tentar identificar tais vieses contra grupos vulneráveis. Mas como o viés deve ser definido e, portanto, o que realmente significa para um algoritmo ser justo, é uma questão de intenso debate. Ao longo da última década, acadêmicos propuseram dezenas de noções matemáticas concorrentes de justiça, algumas das quais são incompatíveis. Isso significa que um sistema projetado para ser “justo” de acordo com um desses padrões inevitavelmente violará outros.
Os funcionários de Amsterdã adotaram uma definição de justiça que se concentrava em distribuir igualmente o ônus das investigações erradas entre diferentes grupos demográficos.
Feedback misto
Enquanto construía o Smart Check, Amsterdã consultou diversos órgãos públicos sobre o modelo, incluindo o oficial de proteção de dados interno da cidade e a Comissão de Dados Pessoais de Amsterdã. Também consultou organizações privadas, como a empresa de consultoria Deloitte. Cada uma deu sua aprovação ao projeto.
Mas um grupo chave não estava a bordo: o Conselho de Participação, um comitê consultivo de 15 membros composto por beneficiários de assistência social, defensores e outros representantes de partes interessadas não governamentais que defendem os interesses das pessoas que o sistema foi projetado para ajudar e fiscalizar. O comitê, como de Zwart, o defensor dos direitos digitais, estava profundamente preocupado com o que o sistema poderia significar para indivíduos já em posições precárias.
Anke van der Vliet, agora com mais de 70 anos, é uma membro de longa data do conselho. Depois de se sentar lentamente de seu andador em uma cadeira em um restaurante no bairro Zuid de Amsterdã, onde mora, ela retira seus óculos de leitura da case. “Desconfiamos desde o início,” ela diz, retirando uma pilha de papéis que guardou sobre o Smart Check. “Todo mundo era contra.”
Há décadas, ela tem sido uma defensora constante dos beneficiários de bem-estar social da cidade, um grupo que, até o final de 2024, deve chegar a cerca de 35.000 pessoas. No final dos anos 1970, ela ajudou a fundar o Women on Welfare, um grupo dedicado a expor os desafios únicos enfrentados pelas mulheres dentro do sistema de bem-estar social.
Os funcionários da cidade apresentaram seu plano ao Conselho de Participação no outono de 2021. Membros como van der Vliet estavam profundamente céticos. “Queríamos saber, isso é vantajoso ou desvantajoso para mim?” ela diz.
Mais duas reuniões não conseguiram convencê-los. O feedback deles levou a mudanças importantes, incluindo a redução do número de variáveis que a cidade inicialmente considerou para calcular a pontuação de um solicitante e a exclusão de variáveis que poderiam introduzir viés, como a idade, do sistema. Mas o Conselho de Participação parou de se engajar nos esforços de desenvolvimento da cidade completamente após seis meses. “O Conselho tem a opinião de que tal experimento afeta os direitos fundamentais dos cidadãos e deve ser descontinuado,” escreveu o grupo em março de 2022. Como apenas cerca de 3% das aplicações para benefícios de bem-estar são fraudulentas, continuou a carta, o uso do algoritmo foi “desproporcional.”
De Koning, o gerente do projeto, é cético de que o sistema algum dia tivesse recebido a aprovação de van der Vliet e seus colegas. “Acho que nunca iria funcionar que o Conselho de Participação inteiro ficasse atrás da ideia do Smart Check,” ele diz. “Havia muita emoção nesse grupo sobre todo o processo do sistema de benefícios sociais.” Ele acrescenta, “Eles estavam muito assustados com a possibilidade de outro escândalo.”
Mas para os defensores que trabalham com beneficiários de bem-estar social, e para alguns dos próprios beneficiários, a preocupação não era um escândalo, mas o risco de danos reais. A tecnologia não poderia apenas cometer erros prejudiciais, mas também tornar ainda mais difícil corrigi-los — permitindo que os oficiais de bem-estar “se escondessem atrás de paredes digitais,” diz Henk Kroon, um defensor que ajuda beneficiários de bem-estar na Associação de Bem-Estar de Amsterdã, um sindicato estabelecido na década de 1970. Tal sistema poderia tornar o trabalho “fácil para [os oficiais],” ele diz. “Mas para os cidadãos comuns, é muito frequentemente o problema.”
Hora de testar
Apesar das objeções finais do Conselho de Participação, a cidade decidiu seguir em frente e testar o modelo funcional do Smart Check.
Os primeiros resultados não foram o que esperavam. Quando a equipe de análise avançada da cidade executou o modelo inicial em maio de 2022, descobriram que o algoritmo apresentava forte viés contra migrantes e homens, o que conseguimos verificar independentemente.
Como a cidade nos informou e nossa análise confirmou, o modelo inicial era mais propenso a sinalizar erroneamente candidatos não holandeses. E era quase duas vezes mais provável sinalizar erroneamente um solicitante com nacionalidade não ocidental do que um com nacionalidade ocidental. O modelo também tinha 14% mais chances de sinalizar erroneamente homens para investigação.
No processo de treinamento do modelo, a cidade também coletou dados sobre quem seus trabalhadores humanos haviam sinalizado para investigação e quais grupos os indivíduos sinalizados erroneamente eram mais propensos a pertencer. Em essência, eles realizaram um teste de viés em seu próprio sistema analógico, uma maneira importante de benchmarking que raramente é feita antes de implantar tais sistemas.
O que descobriram no processo liderado pelos trabalhadores foi um padrão diferente. Enquanto o modelo Smart Check era mais propenso a sinalizar erroneamente não-holandeses e homens, os trabalhadores humanos eram mais propensos a sinalizar erroneamente holandeses e mulheres.
A equipe por trás do Smart Check sabia que, se não conseguissem corrigir o viés, o projeto seria cancelado. Então, recorreram a uma técnica da pesquisa acadêmica, conhecida como reponderação dos dados de treinamento. Na prática, isso significava que os solicitantes com nacionalidade não ocidental, que foram considerados como tendo cometido erros significativos em suas aplicações, receberam menos peso nos dados, enquanto aqueles com nacionalidade ocidental receberam mais.
Eventualmente, isso parecia resolver o problema deles: como a análise da Lighthouse confirma, uma vez que o modelo foi reponderado, cidadãos holandeses e não-holandeses tinham a mesma probabilidade de serem sinalizados erroneamente.
De Koning, que se juntou à equipe do Smart Check após a reponderação dos dados, disse que os resultados foram um sinal positivo: “Porque foi justo… pudemos continuar o processo.”
O modelo também parecia ser melhor que os trabalhadores de caso na identificação de solicitações que mereciam uma atenção extra, com testes internos mostrando uma melhoria de 20% na precisão.
Impulsionada por esses resultados, na primavera de 2023, a cidade estava quase pronta para tornar o projeto público. Submeteu o Smart Check ao Registro de Algoritmos, uma iniciativa de transparência do governo destinada a manter os cidadãos informados sobre algoritmos de aprendizado de máquina em desenvolvimento ou já em uso pelo governo.
Para de Koning, as extensas avaliações e consultas da cidade foram encorajadoras, especialmente porque também revelaram os vieses do sistema analógico. Mas para de Zwart, esses mesmos processos representaram um profundo equívoco: que a justiça poderia ser engenheirada.
Em uma carta aos oficiais da cidade, de Zwart criticou a premissa do projeto e, mais especificamente, delineou as consequências não intencionais que poderiam resultar da reponderação dos dados. Isso poderia reduzir o viés contra pessoas com histórico de migração no geral, mas não garantiria justiça para identidades interseccionais; o modelo ainda poderia discriminar mulheres com histórico de migração, por exemplo. E mesmo que essa questão fosse abordada, ele argumentou, o modelo ainda poderia tratar mulheres migrantes em determinados códigos postais de maneira injusta, e assim por diante. E tais vieses seriam difíceis de detectar.
“A cidade usou todas as ferramentas do kit de ferramentas de IA responsável,” disse de Zwart. “Eles têm um teste de viés, uma avaliação de direitos humanos; [eles levaram em conta] o viés da automação, em resumo, tudo o que o mundo da IA responsável recomenda. No entanto, o município continuou com algo que é fundamentalmente uma má ideia.”
No final, ele nos disse que a questão é se é legítimo usar dados sobre comportamentos passados para julgar “comportamentos futuros dos seus cidadãos que, fundamentalmente, você não pode prever.”
Os oficiais ainda insistiram e definiram março de 2023 como a data para o início do piloto. Os membros do conselho municipal de Amsterdã foram informados com pouco aviso. De fato, eles só foram informados no mesmo mês para desapontamento de Elisabeth IJmker, uma membro de primeiro mandato do Partido Verde, que equilibrava seu papel no governo municipal com pesquisas sobre religião e valores na Universidade Vrije de Amsterdã.
“Ler as palavras ‘algoritmo’ e ‘prevenção de fraudes’ em uma frase, acho que isso merece uma discussão,” ela nos disse. Mas, quando soube do projeto, a cidade já estava trabalhando nele há anos. Para ela, estava claro que o conselho municipal estava “sendo informado” em vez de ser convidado a votar sobre o sistema.
A cidade esperava que o piloto pudesse provar que céticos como ela estavam errados.
Aumentando as apostas
O lançamento formal do Smart Check começou com um conjunto limitado de candidatos reais para benefícios sociais, cujos documentos a cidade processaria pelo algoritmo e atribuiria uma pontuação de risco para determinar se a aplicação deveria ser sinalizada para investigação. Ao mesmo tempo, um humano revisaria a mesma aplicação.
O desempenho do Smart Check seria monitorado em dois critérios chave. Primeiro, poderia ele considerar os solicitantes sem viés? E, em segundo lugar, o Smart Check era realmente inteligente? Em outras palavras, a matemática complexa que compunha o algoritmo conseguiria detectar fraudes no bem-estar social de forma mais eficaz e justa do que os trabalhadores humanos de casos?
Não demorou muito para que ficasse claro que o modelo falhou em ambos os aspectos.
Embora tenha sido projetado para reduzir o número de solicitantes de bem-estar social sinalizados para investigação, ele estava sinalizando mais. E não provou ser melhor do que um trabalhador humano em identificar aqueles que realmente mereciam uma atenção extra.
Além disso, apesar dos esforços da cidade para recalibrar o sistema, o viés ressurgiu no piloto ao vivo. Mas, desta vez, em vez de sinalizar erroneamente pessoas não holandesas e homens como nos testes iniciais, o modelo agora estava mais propenso a sinalizar erroneamente solicitantes com nacionalidade holandesa e mulheres.
A análise da Lighthouse também revelou outras formas de viés não mencionadas na documentação da cidade, incluindo uma maior probabilidade de que solicitantes de benefícios sociais com filhos fossem erroneamente sinalizados para investigação.
(Um porta-voz de Amsterdã enviou um comentário após a publicação para observar que “ao realizar a análise de viés, [ela] não verificou se um solicitante de benefícios tinha filhos ou não.” O porta-voz também acrescentou que a “política de bem-estar da cidade tem sido pioneira por anos no que diz respeito à confiança e à não penalização de pessoas que cometeram erros. Várias mudanças políticas foram implementadas e arranjos feitos para isso”; mas observam que a cidade também atingiu “os limites do espaço político local que os municípios têm,” já que “o sistema nacional de bem-estar gera desconfiança e obriga os municípios a punir.”)
A cidade estava empacada. Quase 1.600 aplicações de bem-estar social haviam sido processadas pelo modelo durante o período piloto. Mas os resultados significavam que os membros da equipe estavam desconfortáveis em continuar os testes, especialmente quando poderia haver consequências reais. Em resumo, diz de Koning, a cidade não poderia “dizer definitivamente” que “isso não está discriminando.”
Ele, e outros que estavam trabalhando no projeto, não acreditavam que isso fosse necessariamente um motivo para descartar o Smart Check. Eles queriam mais tempo, digamos, “um período de 12 meses,” de acordo com de Koning, para continuar testando e refinando o modelo.
Sabiam, no entanto, que isso seria difícil de vender.
No final de novembro de 2023, Rutger Groot Wassink, o oficial da cidade responsável pelos assuntos sociais, tomou seu lugar na câmara do conselho de Amsterdã. Ele olhou para o tablet à sua frente e então se dirigiu à sala: “Decidi parar o piloto.”
O anúncio trouxe um fim ao abrangente experimento de vários anos. Em outra reunião do conselho alguns meses depois, ele explicou por que o projeto foi encerrado: “Eu teria achado muito difícil justificar, se tivéssemos feito um piloto… que mostrasse que o algoritmo continha um enorme viés,” disse ele. “Haveria partidos que teriam me criticado com razão sobre isso.”
Visto de uma certa perspectiva, a cidade havia testado uma abordagem inovadora para identificar fraudes de uma maneira projetada para minimizar os riscos, descobriu que não havia atendido às suas promessas e a descartou antes que as consequências para pessoas reais tivessem a chance de se multiplicar.
Mas para IJmker e alguns de seus colegas do conselho da cidade focados no bem-estar social, havia também a questão do custo de oportunidade. Ela se lembra de conversar com um colega sobre como a cidade poderia ter gasto esse dinheiro de outra maneira, como “contratar mais pessoas para fazer contato pessoal com as diferentes pessoas que estamos tentando alcançar.”
Os membros do conselho municipal nunca foram informados exatamente sobre o custo do esforço, mas, em resposta a perguntas da MIT Technology Review, Lighthouse e Trouw sobre esse tema, a cidade estimou que havia gasto cerca de €500.000, além de €35.000 para o contrato com a Deloitte, mas alertou que o valor total investido no projeto era apenas uma estimativa, dado que o Smart Check foi desenvolvido internamente por várias equipes .
Por sua vez, van der Vliet, membro do Conselho de Participação, não ficou surpresa com o resultado negativo. A possibilidade de um sistema computadorizado discriminatório foi “precisamente uma das razões” pelas quais seu grupo não queria o piloto, ela diz. E quanto à discriminação no sistema existente? “Sim,” ela diz, de forma direta. “Mas sempre dissemos que [era discriminatório].”
Ela e outros defensores gostariam que a cidade tivesse se concentrado mais no que eles viam como os problemas reais enfrentados pelos beneficiários de bem-estar social: os aumentos no custo de vida que, tipicamente, não foram seguidos por aumentos nos benefícios; a necessidade de documentar cada mudança que poderia afetar a elegibilidade para os benefícios; e a desconfiança com que se sentem tratados pela prefeitura.
Esse tipo de algoritmo pode ser feito corretamente?
Quando conversamos com Bodaar em março, um ano e meio após o fim do piloto, ele foi direto em suas reflexões. “Talvez tenha sido infeliz usar imediatamente um dos sistemas mais complicados,” disse ele, “e talvez seja simplesmente o caso de que ainda não é … o momento de usar inteligência artificial para esse objetivo.”
“Niente, zero, nada. Não vamos fazer isso mais,” ele disse sobre o uso de IA para avaliar solicitantes de bem-estar. “Mas ainda estamos pensando sobre isso: O que exatamente aprendemos?”
Essa é uma pergunta que IJmker também reflete. Nas reuniões do conselho municipal, ela tem citado o Smart Check como um exemplo do que não fazer. Embora estivesse contente que os funcionários da cidade tivessem sido cuidadosos em seus “muitos protocolos”, ela se preocupava que o processo obscurecesse algumas das grandes questões de “valores filosóficos” e “políticos” que a cidade ainda não havia ponderado como questão de política.
Questões como “De que forma realmente olhamos para o perfilamento?” ou “O que achamos que é justificável?”, ou até mesmo “O que é viés?”
Essas questões são, “onde entra a política, ou a ética,” ela diz, “e isso é algo que você não pode colocar em uma caixa de seleção.”
Mas agora que o piloto foi interrompido, ela se preocupa que seus colegas oficiais da cidade possam estar demasiado ansiosos para seguir em frente. “Acho que muitas pessoas estavam apenas tipo, ‘Ok, bem, fizemos isso. Terminamos, tchau, fim da história,'” ela diz. Parece uma “perda,” ela acrescenta, “porque as pessoas trabalharam nisso por anos.”
Ao abandonar o modelo, a cidade retornou a um processo analógico que sua própria análise concluiu ser tendencioso contra mulheres e cidadãos holandeses, um fato não ignorado por Berkers, o cientista de dados, que não trabalha mais para a cidade. Ao encerrar o piloto, ele diz, a cidade evitou a verdade desconfortável que muitas das preocupações que de Zwart levantou sobre os complexos e múltiplos vieses dentro do modelo Smart Check também se aplicam ao processo liderado pelos trabalhadores de caso.
“Essa é a coisa que eu acho um pouco difícil sobre a decisão,” diz Berkers. “É um pouco como não decidir. É uma decisão de voltar ao processo analógico, que em si tem características como o viés.”
Chen, o consultor de IA ética, concorda amplamente. “Por que mantemos os sistemas de IA a um padrão mais alto do que os agentes humanos?” ele pergunta. Quando se trata dos trabalhadores humanos, ele diz, “não houve tentativa de corrigir [o viés] de forma sistemática.” Amsterdã prometeu escrever um relatório sobre os vieses humanos no processo de bem-estar, mas a data foi adiada várias vezes.
“Na realidade, o que a ética implica na prática é: nada é perfeito,” diz ele. “Há uma coisa de alto nível: Não discrimine, que eu acho que todos podemos concordar, mas esse exemplo destaca algumas das complexidades de como você traduz esse [princípio].” Em última análise, Chen acredita que encontrar qualquer solução exigirá tentativa e erro, o que por definição geralmente envolve erros: “Você tem que pagar esse custo.”
Mas talvez seja hora de reconsiderar mais fundamentalmente como a justiça deve ser definida e por quem. Além das definições matemáticas, alguns pesquisadores argumentam que as pessoas mais afetadas pelos programas em questão devem ter uma voz maior. “Esses sistemas só funcionam quando as pessoas acreditam neles,” explica Elissa Redmiles, professora assistente de ciência da computação na Universidade de Georgetown, que estudou a justiça algorítmica.
Não importa como o processo seja, essas são questões que todo governo terá que lidar urgentemente em um futuro cada vez mais definido pela IA.
E, como argumenta de Zwart, se questões mais amplas não forem abordadas, até mesmo oficiais bem-intencionados que implementam sistemas como o Smart Check em cidades como Amsterdã estarão condenados a aprender, ou ignorar, as mesmas lições repetidamente.
“Estamos sendo seduzidos por soluções tecnológicas para os problemas errados,” ele diz. “Devemos realmente querer isso? Por que a prefeitura não constrói um algoritmo que procure pessoas que não solicitam assistência social, mas têm direito a ela?”