A corrida para entender o mundo emocionante e perigoso dos modelos de linguagem para Inteligência Artificial
Inteligência artificial

A corrida para entender o mundo emocionante e perigoso dos modelos de linguagem para Inteligência Artificial

Centenas de cientistas em todo o mundo estão trabalhando juntos para compreender uma das tecnologias emergentes mais poderosas antes que seja tarde demais.

Em 18 de maio, o CEO do Google, Sundar Pichai, anunciou uma nova ferramenta impressionante: um sistema de Inteligência Artificial (IA) chamado LaMDA que pode conversar com os usuários sobre qualquer assunto.

Para começar, o Google planeja integrar o LaMDA em seu portal de busca principal, seu assistente de voz, e Workplace, sua coleção de software de trabalho em nuvem que inclui Gmail, Docs e Drive. Mas o objetivo final, disse Pichai, é criar uma interface de conversação que permita às pessoas resgatar qualquer tipo de informação — seja em texto, visual ou em áudio — em todos os produtos do Google apenas fazendo uma pergunta.

O lançamento do LaMDA sinaliza mais uma maneira pela qual as tecnologias de linguagem estão emaranhadas em nosso dia a dia. Mas a apresentação chamativa do Google contradisse o debate ético que agora envolve esses sistemas de ponta. O LaMDA é conhecido como um grande modelo de linguagem (LLM, em inglês) — um algoritmo de deep learning treinado em enormes quantidades de dados de texto.

Estudos já mostraram como ideias racistas, sexistas e abusivas estão embutidas nesses modelos. Eles associam categorias como médicos com homens e enfermeiras com mulheres; boas palavras com brancos e más palavras com negros. Use determinadas instruções para vê-los começar a encorajar coisas como genocídio, automutilação e abuso sexual infantil. Por causa de seu tamanho, eles têm uma pegada de carbono chocantemente alta. Pela sua fluência, eles facilmente confundem as pessoas fazendo-as pensar que um humano quem escreveu as respostas, o que os especialistas alertam que pode viabilizar a produção em massa de desinformação.

Em dezembro, o Google afastou sua colíder da equipe de ética em IA, Timnit Gebru, depois que ela se recusou a retratar um artigo que alertava muitos desses pontos. Poucos meses depois, após denúncia em larga escala do que, em uma carta aberta funcionários do Google chamaram de “censura de pesquisa sem precedentes”, a coautora de Gebru e colíder, Margaret Mitchell, também foi demitida.

Não é apenas o Google que está implantando essa tecnologia. Os modelos de linguagem de maior visibilidade até agora foram GPT-2 e GPT-3 da OpenAI, que emitem trechos de texto notavelmente convincentes e podem até mesmo ser reprogramados para terminar composições musicais e código de computador. A Microsoft agora tem direito de uso exclusivo sobre a GPT-3 para incorporar em produtos ainda não anunciados. O Facebook desenvolveu seus próprios grandes modelos de linguagem para tradução e moderação de conteúdo. E as startups estão criando dezenas de produtos e serviços baseados nos modelos dos gigantes da tecnologia. Em breve, todas as nossas interações digitais — quando enviarmos e-mail, pesquisarmos ou postarmos nas redes sociais — serão filtradas por meio desses modelos.

Infelizmente, poucas pesquisas estão sendo feitas para entender como as falhas dessa tecnologia podem afetar as pessoas no mundo real, ou para descobrir como projetar grandes modelos de linguagem melhores que mitiguem esses desafios. Como o Google ressaltou em sua postura diante de Gebru e Mitchell, as poucas empresas ricas o suficiente para treinar e manter esses modelos de linguagem têm grande interesse financeiro em se recusar a examiná-los cuidadosamente. Em outras palavras, os grandes modelos de linguagem estão cada vez mais integrados à infraestrutura linguística da Internet sobre bases científicas instáveis.

Mais de 500 pesquisadores em todo o mundo estão agora em uma corrida para aprender mais sobre as capacidades e limitações desses modelos. Trabalhando juntos no projeto BigScience liderado por Huggingface, uma startup de enfoque “ciência aberta” para a compreensão de Processamento de Linguagem Natural (PLN), eles procuram construir um grande modelo de linguagem de código aberto que irá servir como um recurso compartilhado para a comunidade científica. O objetivo é gerar o máximo de conhecimento possível concentrado em um único ano. A questão central: como e quando os grandes modelos de linguagem devem ser desenvolvidos e implantados para aproveitar seus benefícios sem suas consequências prejudiciais?

“Não podemos parar essa loucura em torno dos grandes modelos de linguagem, onde todos querem treiná-los”, diz Thomas Wolf, o diretor de ciências da Huggingface, que co-lidera a iniciativa. “Mas o que podemos fazer é tentar empurrar isso em uma direção que no final seja mais benéfica”.

Papagaios estocásticos

No mesmo mês em que o BigScience começou suas atividades, uma startup chamada Cohere saiu discretamente das sombras. Iniciada por ex-pesquisadores do Google, ela promete trazer grandes modelos de linguagem para qualquer empresa que queira um — com uma única linha de código. Ela desenvolveu uma técnica para treinar e hospedar seu próprio modelo com as sobras ociosas de recursos computacionais em um centro de processamento de dados, o que reduz os custos de aluguel do espaço necessário na nuvem para manutenção e implantação.

Entre seus primeiros clientes está a startup Ada Support, uma plataforma para construção de chatbots de atendimento ao consumidor sem código, que por sua vez atende empresas como Facebook e Zoom. E a lista de investidores da Cohere inclui alguns dos maiores nomes da área: o pioneiro da visão computacional Fei-Fei Li, o vencedor do Prêmio Turing, Geoffrey Hinton, e o chefe de IA da Apple, Ian Goodfellow.

A Cohere é uma das várias startups e iniciativas que agora buscam trazer grandes modelos de linguagem para vários setores. Há também Aleph Alpha, uma startup com sede na Alemanha que busca construir uma GPT-3 alemã; um empreendimento anônimo iniciado por vários ex-pesquisadores da OpenAI; e a iniciativa de código aberto Eleuther, que lançou recentemente o GPT-Neo, uma reprodução gratuita (e um pouco menos poderosa) da GPT-3.

Mas é a lacuna entre o que os grandes modelos de linguagem são e o que aspiram ser que preocupa um número crescente de pesquisadores. Eles são efetivamente as tecnologias de preenchimento automático mais poderosas do mundo. Ao serem abastecidos com milhões de frases, parágrafos e até mesmo amostras de diálogo, eles aprendem os padrões estatísticos que regem como cada um desses elementos deve ser montado em uma ordem adequada. Isso significa que os grandes modelos de linguagem podem aprimorar certas atividades: por exemplo, eles são bons para criar chatbots mais interativos e fluidos de conversação que seguem um roteiro bem estabelecido. Mas eles não entendem realmente o que estão lendo ou dizendo. Além disso, muitos dos recursos mais avançados desses modelos atualmente estão disponíveis apenas em inglês.

Entre outras coisas, é sobre isso que Gebru, Mitchell e cinco outros cientistas alertaram em seu artigo, que chama os grandes modelos de linguagem de “papagaios estocásticos”. “A tecnologia da linguagem pode ser muito, muito útil quando tem o escopo, a localização e o enquadramento adequados”, diz Emily Bender, professora de linguística da Universidade de Washington e uma das co-autoras do artigo. Mas a natureza de propósito geral dos grandes modelos de linguagem — e a capacidade de persuasão de seu mimetismo — incentiva as empresas a usá-los em áreas para as quais não estão necessariamente preparados.

Em uma palestra recente em uma das maiores conferências de IA, Gebru vinculou essa implantação apressada de grandes modelos de linguagem às consequências que ela experimentou em sua própria vida. Gebru nasceu e foi criada na Etiópia, onde uma guerra devastou a região mais ao norte de Tigray. A Etiópia também é um país onde são falados 86 idiomas, quase todos inexistentes nas tecnologias linguísticas convencionais.

Apesar dos grandes modelos de linguagem terem essas deficiências linguísticas, o Facebook depende muito deles para automatizar globalmente sua moderação de conteúdo. Quando a guerra em Tigray estourou pela primeira vez em novembro, Gebru viu a plataforma ter dificuldades para controlar a enxurrada de desinformações. Isso é emblemático de um padrão persistente que os pesquisadores observaram na moderação de conteúdo. Comunidades que falam idiomas não priorizados pelo Vale do Silício enfrentam os ambientes digitais mais hostis.

Gebru apontou que os danos não param por aí. Quando notícias falsas, discurso de ódio e até ameaças de morte não são moderados, eles são coletados como dados de treinamento para construir a próxima geração de grandes modelos de linguagem. E esses modelos, repetindo aquilo em que foram treinados, assim como papagaios, acabam regurgitando esses padrões linguísticos tóxicos na internet.

Em muitos casos, os pesquisadores não investigaram a fundo o suficiente para saber como essa toxicidade pode se manifestar em aplicações posteriores. Mas existe alguns estudos sobre isso. Em seu livro Algorithms of Oppression (em tradução livre, Algoritmos da Opressão) de 2018, Safiya Noble, professora associada de informação e estudos afro-americanos na Universidade da Califórnia, em Los Angeles, documentou como preconceitos embutidos na pesquisa do Google perpetuam o racismo e, em casos extremos, talvez até motivem a violência racial.

“As consequências são muito graves e significativas”, diz ela. O Google não é apenas o principal portal de conhecimento para o cidadão comum. Também fornece infraestrutura de informações para instituições, universidades e governos estaduais e federais.

O Google já usa um grande modelo de linguagem para otimizar alguns de seus resultados de busca. Com seu último anúncio do LaMDA e uma recente proposta publicada em um artigo de pré-impressão, a empresa deixou claro que só aumentará sua confiança e dependência na tecnologia. Noble teme que isso possa tornar os problemas que ela descobriu ainda piores: “O fato de a equipe de ética da IA de o Google ter sido demitida por levantar questões muito importantes sobre os padrões racistas e sexistas de discriminação embutidos em grandes modelos de linguagem deveria ter sido um sinal de alerta”.

BigScience

O projeto BigScience começou como resposta direta à crescente necessidade de escrutínio científico de grandes modelos de linguagem. Ao observar a rápida proliferação da tecnologia e a tentativa do Google de censurar Gebru e Mitchell, Wolf e vários colegas perceberam que era hora de a comunidade de pesquisa resolver o problema por conta própria.

Inspirados por colaborações científicas abertas como o CERN em física de partículas, eles conceberam uma ideia para um grande modelo de linguagem de código aberto que poderia ser usado para conduzir pesquisas críticas independentemente de qualquer empresa. Em abril deste ano, o grupo recebeu uma concessão para construí-lo usando o supercomputador do governo francês.

Em empresas de tecnologia, os grandes modelos de linguagem geralmente são construídos por apenas meia dúzia de pessoas que possuem conhecimentos técnicos fundamentais. O BigScience queria trazer centenas de pesquisadores de uma ampla gama de países e disciplinas para participar de um processo verdadeiramente colaborativo de construção de modelos. Wolf, que é francês, abordou primeiro a comunidade francesa de PNL. A partir daí, a iniciativa tornou-se uma grande operação global que abrange mais de 500 pessoas.

O projeto está agora livremente organizado em uma dúzia de grupos de trabalho e contando, cada um focado em diferentes aspectos do desenvolvimento e investigação do modelo. Um grupo medirá o impacto ambiental do modelo, incluindo a pegada de carbono do treinamento e da operação do grande modelo de linguagem, levando em consideração os custos do ciclo de vida do supercomputador. Outro se concentrará no desenvolvimento de maneiras responsáveis ​​de obter os dados de treinamento — buscando alternativas para simplesmente extrair dados da web, como transcrever arquivos históricos de rádio ou podcasts. O objetivo aqui é evitar linguagem tóxica e coleta não consensual de informações privadas.

Outros grupos de trabalho são dedicados a desenvolver e avaliar “o aspecto multilíngue” do modelo. Para começar, o BigScience selecionou oito idiomas ou famílias de idiomas, incluindo inglês, chinês, árabe, índico (com hindi e urdu) e bantu (com suaíli). O plano é trabalhar em estreita colaboração com cada comunidade linguística para mapear o máximo possível de seus dialetos regionais e garantir que suas normas distintas de privacidade de dados sejam respeitadas. “Queremos que as pessoas opinem sobre como seus dados são usados”, diz Yacine Jernite, pesquisador do Huggingface.

A questão não é construir um grande modelo de linguagem comercialmente viável para competir com GPT-3 ou LaMDA. O modelo será muito grande e muito lento para ser útil às empresas, diz Karën Fort, professora associada da Sorbonne. Em vez disso, o recurso está sendo projetado exclusivamente para pesquisa. Cada unidade de observação e cada decisão de modelagem estão sendo cuidadosamente e publicamente documentados, então é mais fácil analisar como todas as partes afetam os resultados do modelo. “Não se trata apenas de entregar o produto final”, diz Angela Fan, pesquisadora do Facebook. “Imaginamos cada peça dele como um ponto de entrega, como um objeto”.

O projeto é, sem dúvida, ambicioso — mais globalmente expansivo e colaborativo do que qualquer outra comunidade de IA já conhecida. A logística de coordenar tantos pesquisadores é em si um desafio. (Na verdade, também existe um grupo de trabalho para isso.) Além do mais, cada pesquisador contribui como voluntário. A concessão do governo francês cobre apenas recursos computacionais, não humanos.

Mas os pesquisadores dizem que a necessidade compartilhada que uniu a comunidade estimulou um nível impressionante de energia e ímpeto. Muitos estão otimistas de que até o final do projeto, que será executado até maio do próximo ano, eles terão produzido não apenas estudos mais profundos sobre as limitações dos grandes modelos de linguagem, mas também melhores ferramentas e práticas para construí-los e implantá-los de forma responsável.

Os organizadores esperam que isso inspire mais pessoas dentro da indústria a incorporar essas práticas em sua própria estratégia de grandes modelos de linguagem, embora sejam os primeiros a admitir que estão sendo idealistas. Na verdade, o grande número de pesquisadores envolvidos, incluindo muitos de gigantes da tecnologia, ajudará a estabelecer novas normas dentro da comunidade da PNL.

Em alguns aspectos, as normas já mudaram. Em resposta às conversas sobre a demissão de Gebru e Mitchell, a Cohere ouviu de vários de seus clientes que eles estavam preocupados com a segurança da tecnologia. Em seu site, incluíram uma página com o compromisso de investir continuamente em pesquisas técnicas e não técnicas para mitigar os possíveis danos do seu modelo. Ela diz que também vai montar um conselho consultivo formado por especialistas externos para ajudá-la a criar políticas sobre o uso permitido de suas tecnologias.

“O PNL está em um momento decisivo”, diz Fort. É por isso que o BigScience é emocionante. Isso permite que a comunidade impulsione a pesquisa e forneça uma alternativa promissora ao status quo dentro da indústria: “Diz: ‘Vamos dar outro passo. Vamos fazer isso juntos — descobrir todas as maneiras e todas as coisas que podemos fazer para ajudar a sociedade’.”

“Quero que o PNL ajude as pessoas”, diz ela, “e não que as rebaixe”.

Atualização: as iniciativas de responsabilidade da Cohere foram esclarecidas.

Nossos tópicos