Entenda por quê a delatora do Facebook diz que os algoritmos da plataforma são perigosos
Humanos e tecnologia

Entenda por quê a delatora do Facebook diz que os algoritmos da plataforma são perigosos

O testemunho de Frances Haugen na audiência do Senado no início de outubro levantou sérias questões sobre como os algoritmos do Facebook funcionam, e dá voz a muitas descobertas de investigações anteriores da MIT Technology Review americana.

No início de outubro, a principal fonte dos arquivos de uma série investigativa baseada em documentos internos do Facebook no Wall Street Journal revelou sua identidade em um episódio do programa americano 60 Minutes.

Frances Haugen, uma ex-gerente de produto da empresa, diz que se manifestou depois de ver a liderança do Facebook priorizar repetidamente o lucro em vez da segurança.

Antes de pedir demissão em maio deste ano, ela vasculhou o Facebook Workplace, a rede social de funcionários internos da empresa, e reuniu uma ampla gama de relatórios e pesquisas internas na tentativa de demonstrar conclusivamente que o Facebook havia escolhido de forma deliberada não corrigir os problemas em sua plataforma.

No dia 5 de outubro, ela testemunhou em frente ao Senado sobre o impacto do Facebook na sociedade. Ela reiterou muitas das descobertas da pesquisa interna e implorou ao Congresso para agir.

“Estou aqui hoje porque acredito que os produtos do Facebook prejudicam as crianças, dão força à polarização e enfraquecem nossa democracia”, disse ela em sua declaração de abertura aos legisladores. “Esses problemas têm solução. Uma rede social mais segura, respeitadora da liberdade de expressão e mais agradável é possível. Mas há uma coisa que espero que todos aprendam com essas divulgações, é que o Facebook pode mudar, mas claramente não vai fazer isso por conta própria”.

Durante seu depoimento, Haugen culpou particularmente o algoritmo do Facebook e as decisões de design da plataforma por muitos dos problemas apresentados. Esta é uma mudança marcante no foco dos legisladores sobre a política de conteúdo e censura do Facebook, no que diz respeito ao que deveria aparecer e do que não deveria. Muitos especialistas acreditam que essa visão limitada leva à estratégia fútil de mirar em uma questão específica e esquecer-se do panorama geral.

“Sou uma forte defensora de soluções não baseadas em conteúdo, porque são elas que protegerão as pessoas mais vulneráveis ​​do mundo”, disse Haugen, apontando para a capacidade desigual do Facebook de fazer cumprir sua política de conteúdo em outros idiomas diferentes do inglês.

O testemunho de Haugen reverbera muitas das descobertas de uma investigação da MIT Technology Review americana publicada no início deste ano, que se baseou em dezenas de entrevistas com executivos do Facebook, funcionários atuais e ex-funcionários, especialistas do setor e externos. Reunimos as partes mais relevantes de nossa investigação e outras reportagens para dar mais contexto ao testemunho de Haugen.

Como funciona o algoritmo do Facebook?

No dia a dia, usamos o termo “algoritmo do Facebook” como se houvesse apenas um. Na verdade, o Facebook decide como direcionar os anúncios e classificar o conteúdo com base em centenas, talvez milhares, de algoritmos. Alguns deles revelam as preferências do usuário e aumentam o aparecimento desse tipo de conteúdo no feed dos mesmos. Outros servem para detectar tipos específicos de conteúdo impróprio, como nudez, spam ou manchetes clickbait para despriorizá-los no feed ou ainda para excluí-los da plataforma.

Todos esses algoritmos são conhecidos como algoritmos de machine learning. Como escrito em um artigo no início deste ano:

Ao contrário dos algoritmos tradicionais, que são codificados por engenheiros, os algoritmos de machine learning “treinam” os dados de entrada para aprender as correlações dentro deles. O algoritmo treinado, conhecido como modelo de machine learning, pode automatizar decisões futuras. Um algoritmo treinado em dados de clique em anúncios, por exemplo, pode aprender que as mulheres clicam em anúncios de leggings de yoga com mais frequência do que os homens. O modelo resultante, então, exibirá mais desses anúncios para mulheres.

E por causa da enorme quantidade de dados de usuário reunidas no Facebook, ele pode

desenvolver modelos que aprendam a inferir a existência não apenas de categorias amplas como “mulheres” e “homens”, mas de categorias muito refinadas como “mulheres entre 25 e 34 anos que gostaram de páginas do Facebook relacionadas a yoga” e anúncios [direcionados] para elas. Quanto mais refinada a segmentação, melhor a chance de um clique, o que daria aos anunciantes mais retorno por seu investimento.

Os mesmos princípios se aplicam para classificar o conteúdo no feed de notícias:

Assim como os algoritmos [podem] ser treinados para prever quem clicaria em qual anúncio, eles [podem] também ser treinados para prever quem gostaria daquele conteúdo ou compartilharia x postagem e, então, dar a essas postagens mais destaque. Se o modelo determinasse que uma pessoa realmente gostasse de cachorros, por exemplo, as postagens de amigos sobre cachorros apareceriam em uma posição superior no feed de notícias do usuário.

Antes de o Facebook começar a usar algoritmos de machine learning, as equipes usavam táticas de design para aumentar o engajamento. Eles experimentavam coisas como a cor de um botão ou a frequência de notificações para fazer com que os usuários voltassem à plataforma. Mas os algoritmos de machine learning criam um ciclo de retroalimentação muito mais poderoso. Eles podem não apenas personalizar o que cada usuário vê, mas também continuar a evoluir com a mudança de preferências do indivíduo, sempre mostrando a cada pessoa o que os manterá mais engajados.

Quem está por trás do algoritmo do Facebook?

No Facebook, não há uma equipe responsável por esse sistema de classificação de conteúdo em sua totalidade. Os engenheiros desenvolvem e adicionam seus próprios modelos de machine learning à mistura da plataforma, com base nos objetivos de sua equipe. Por exemplo, as equipes que se concentram na remoção ou rebaixamento de conteúdo impróprio, conhecidas como equipes de integridade, apenas treinarão modelos de função para detectar diferentes tipos desse conteúdo.

Essa foi uma decisão que o Facebook tomou desde o início, como parte de sua cultura de “agir rápido e romper com situações”. Ela desenvolveu uma ferramenta interna conhecida como FBLearner Flow o que tornou mais fácil para os engenheiros sem experiência em machine learning desenvolverem qualquer modelo de que precisassem. Em um dado momento, ele já era usado por mais de um quarto da equipe de engenharia do Facebook em 2016.

Muitos dos atuais e ex-funcionários do Facebook dizem que isso é parte da razão pela qual a plataforma não consegue entender o que oferece aos usuários no feed de notícias. Equipes diferentes podem ter objetivos conflitantes, e o sistema se tornou tão complexo e difícil de gerenciar que ninguém mais consegue acompanhar todos os seus diferentes componentes.

Como resultado, o principal processo de controle de qualidade da empresa é por meio de experimentação e medição. Como foi escrito:

As equipes treinam um novo modelo de machine learning no FBLearner, seja para alterar a ordem de classificação das postagens ou para detectar melhor o conteúdo que viola os padrões da comunidade do Facebook (suas regras sobre o que é ou não permitido na plataforma). Em seguida, eles testam o novo modelo em um pequeno subconjunto de usuários do Facebook para medir como ele muda as métricas de engajamento, como o número de curtidas, comentários e compartilhamentos, diz Krishna Gade, que atuou como gerente de engenharia para feed de notícias de 2016 a 2018.

Se um modelo reduz muito o engajamento, ele é descartado. Caso contrário, ele é implantado e monitorado continuamente. No Twitter, Gade explicou que seus engenheiros recebiam notificações a cada poucos dias quando métricas como curtidas ou comentários caíam. Em seguida, eles decifrariam o que causou o problema e se algum modelo precisava de retreinamento. 

Como a classificação de conteúdo do Facebook levou à disseminação de desinformação e discurso de ódio?

Durante seu depoimento, Haugen repetidamente voltou à ideia de que o algoritmo do Facebook incita desinformação, discurso de ódio e até violência étnica.

“O Facebook … sabe disso. Eles admitiram em público que a classificação baseada em engajamento é perigosa quando não há sistemas de integridade e de segurança, mas, mesmo assim, não implementou esses sistemas na maioria das versões dos diferentes idiomas do mundo”, disse ela ao Senado hoje. “Está separando famílias. E em lugares como a Etiópia está literalmente atiçando a violência étnica”.

O que foi escrito sobre isso anteriormente:

Os modelos de machine learning que maximizam o engajamento também favorecem a controvérsia, a desinformação e o extremismo: em poucas palavras, as pessoas simplesmente gostam de coisas ultrajantes.

Às vezes, isso inflama as tensões políticas existentes. O exemplo mais devastador até agora é o caso de Mianmar, onde notícias virais falsas e discurso de ódio sobre a minoria muçulmana Rohingya inflamaram o conflito religioso do país em um genocídio completo. O Facebook admitiu em 2018, após anos minimizando seu papel, que não tinha feito o suficiente “para ajudar a evitar que nossa plataforma fosse usada para fomentar a divisão e incitar a violência offline”.

Como Haugen mencionou, o Facebook também sabe disso há um tempo. Relatórios anteriores descobriram que estão estudando o fenômeno desde pelo menos 2016.

Em uma apresentação interna daquele ano, revisada pelo Wall Street Journal, uma pesquisadora da empresa, Monica Lee, descobriu que o Facebook não estava apenas hospedando um grande número de grupos extremistas, mas também os promovendo para seus usuários: “64% de todas as adesões aos grupos extremistas são devido às nossas ferramentas de recomendação ”, explicava a apresentação, principalmente graças aos modelos por trás das funções “Grupos em que você pode participar” e “Descobrir “.

Em 2017, Chris Cox, há muito tempo diretor de produtos do Facebook, formou uma nova força-tarefa para entender se maximizar o engajamento do usuário no Facebook estava contribuindo para a polarização política. Ele descobriu que havia de fato uma correlação e que reduzir a polarização significaria prejudicar o engajamento. Em um documento de meados de 2018 revisado pelo Journal, a força-tarefa propôs várias soluções possíveis, como ajustes nos algoritmos de recomendação para sugerir uma gama mais diversificada de grupos para as pessoas participarem. Mas reconheceu que algumas das ideias eram “anti-crescimento”. A maioria das propostas não avançou e a força-tarefa se desfez.

Ao longo das entrevistas com a Technology Review americana, os funcionários do Facebook também corroboraram essas descobertas.

Um ex-pesquisador de IA do Facebook que ingressou em 2018 diz que ele e sua equipe conduziram “estudo após estudo”, confirmando a mesma ideia básica: modelos que maximizam o engajamento aumentam a polarização. Eles podiam rastrear facilmente até que ponto os usuários concordaram ou discordaram sobre diferentes tópicos, com qual conteúdo eles gostaram de interagir e como suas posições mudaram como resultado. Independentemente do assunto, os modelos aprenderam a alimentar os usuários com visões cada vez mais extremas. “Com o tempo, eles se tornam mais polarizados de uma forma mensurável”, diz ele.

Em seu depoimento, Haugen também enfatizou repetidamente como esses fenômenos são muito piores em regiões que não falam inglês por causa da cobertura desigual do Facebook em diferentes idiomas.

“No caso da Etiópia, existem 100 milhões de pessoas e seis línguas. O Facebook só oferece suporte a dois desses idiomas para sistemas de integridade”, disse ela. “Essa estratégia de focar em sistemas específicos de linguagem e conteúdo para que a IA nos salve está fadada ao fracasso.”

Ela continuou: “Portanto, investir em modelos não baseados em conteúdo para desacelerar a plataforma não apenas protege nossa liberdade de expressão, mas também a vida de muitas pessoas”.

Esse assunto é mais explorado em um artigo diferente sobre as limitações dos grandes modelos de linguagem, ou LLMs:

Apesar dos LLMs terem essas deficiências linguísticas, o Facebook depende muito deles para automatizar sua moderação de conteúdo em níveis globais. Quando a guerra em Tigray, [Etiópia] estourou pela primeira vez em novembro passado, [a pesquisadora de ética de IA, Timnit] Gebru viu que a plataforma não foi capaz de controlar a avalanche de desinformação que se seguiu. Isso é emblemático de um padrão persistente que os pesquisadores observaram na moderação de conteúdo. Comunidades que falam idiomas não priorizados pelo Vale do Silício sofrem os ambientes digitais mais hostis.

Gebru ressaltou que os danos não param por aí. Quando notícias falsas, discurso de ódio e até ameaças de morte não são moderadas, elas são coletadas como dados de treinamento para construir a próxima geração de LLMs. E esses modelos, repetindo aquilo em que foram treinados, acabam regurgitando esses padrões linguísticos tóxicos na Internet.

Como a classificação de conteúdo do Facebook se relaciona com a saúde mental dos adolescentes?

Uma das revelações mais chocantes dos documentos do Wall Street Journal no Facebook foi a investigação interna do Instagram, que descobriu que sua plataforma está piorando a saúde mental de meninas adolescentes. “32% das meninas adolescentes disseram que quando se sentiam mal com seus corpos, o Instagram as fazia sentirem-se pior”, escreveram pesquisadores em uma apresentação de março de 2020.

Haugen também conecta esse fenômeno a sistemas de classificação baseados em engajamento, que ela disse ao Senado que “está fazendo com que os adolescentes sejam expostos a mais conteúdo de anorexia”.

“Se o Instagram é uma força tão positiva, vimos uma era de ouro da saúde mental de adolescentes nos últimos 10 anos? Não, vimos na realidade taxas crescentes de suicídio e depressão”, continuou ela. “Há uma ampla gama de pesquisas que apoia a ideia de que o uso da rede social amplia o risco desses danos à saúde mental”.

Em nossa reportagem anterior, um ex-pesquisador de IA também observou que esse efeito se estendeu ao Facebook.

A equipe desse pesquisador também descobriu que usuários com tendência a postar ou interagir com conteúdo melancólico (um possível sinal de depressão) podem facilmente consumir material cada vez mais negativo, que pode piorar ainda mais sua saúde mental.

Mas, assim como aconteceu com Haugen, o pesquisador descobriu que a liderança não estava interessada em fazer mudanças algorítmicas fundamentais.

A equipe propôs ajustar os modelos de classificação de conteúdo para parar de priorizar a métrica de envolvimento sozinha para esses usuários, e assim, menos postagens deprimentes foram mostradas a eles. “A questão para os gestores era: devemos otimizar a participação se descobrirmos que alguém está em um estado de espírito vulnerável?”, Lembra o pesquisador.

Mas qualquer coisa que reduzisse o engajamento, mesmo por motivos como não exacerbar a depressão de alguém, gerava muitos protestos e críticas entre os líderes. Com suas avaliações de desempenho e salários vinculados à conclusão bem-sucedida dos projetos, os próprios funcionários aprenderam rapidamente a descartar projetos que receberam tal rejeição e continuar trabalhando naqueles que foram impostos por figuras acima deles.

Esse ex-funcionário, por sua vez, não permite mais que sua filha use o Facebook.

Como nós consertamos isso?

Haugen é contra romper com o Facebook e a revogação da Seção 230 da Lei de Decência nas Comunicações dos Estados Unidos, que protege as plataformas de tecnologia da responsabilidade pelo conteúdo que hospedam.

Em vez disso, ela recomenda criar uma isenção mais direcionada na Seção 230 para a classificação algorítmica, que ela argumenta que “eliminaria a classificação baseada no engajamento”. Ela também defende um retorno ao feed de notícias em ordem cronológica do Facebook.

Ellery Roberts Biddle, diretora de projetos da Ranking Digital Rights, uma organização sem fins lucrativos que estuda sistemas de classificação de rede social e seu impacto sobre os direitos humanos, diz que uma exclusão da Seção 230 precisaria ser examinada com cuidado: “Acho que teria uma repercussão limitada. Não acho que alcançaria o que esperávamos”.

Para que tal divisão seja acionável, diz ela, os legisladores e o público precisariam ter um nível muito maior de transparência sobre como os sistemas de segmentação de anúncios e classificação de conteúdo do Facebook funcionam. “Eu entendo a intenção de Haugen, faz sentido”, diz ela. “Mas é difícil. Na verdade, ainda não respondemos à questão da transparência em torno dos algoritmos. Há muito mais a fazer”.

No entanto, as revelações e o testemunho de Haugen trouxeram atenção renovada ao que muitos especialistas e funcionários do Facebook vêm dizendo há anos: que, a menos que o Facebook mude o design fundamental de seus algoritmos, ele não fará uma diferença significativa nos problemas da plataforma.

Sua intervenção também levanta a perspectiva de que, se o Facebook não puder colocar sua própria casa em ordem, os legisladores podem fazer isso de forma forçada.

“O Congresso pode mudar as regras que o Facebook segue e impedir os muitos danos que agora está causando”, disse Haugen ao Senado. “Eu me apresentei correndo um grande risco pessoal porque acredito que ainda temos tempo para agir, mas devemos agir agora”.

Nossos tópicos