O laboratório de Inteligência Artificial (IA) da Meta criou um novo e massivo modelo de linguagem que possui tanto as habilidades notáveis quanto as falhas prejudiciais da pioneira rede neural GPT-3 da OpenAI. E, em um movimento sem precedentes para a Big Tech, a empresa está distribuindo a tecnologia aos pesquisadores, juntamente a detalhes sobre como ela foi construída e treinada.
“Acreditamos firmemente que uma parte importante da pesquisa seja a possibilidade de permitir que outros examinem seu trabalho. Nós queremos esse tipo de colaboração”, diz Joelle Pineau, defensora de longa data da transparência no desenvolvimento de tecnologia, que agora é diretora administrativa da Meta AI.
A decisão da Meta marca a primeira vez que um modelo de linguagem grande e totalmente treinado estará disponível para qualquer pesquisador que queira estudá-lo. A notícia foi bem recebida por muitos especialistas que se preocupavam com o fato de pequenas equipes estarem construindo essa poderosa tecnologia atrás das portas.
“Aplaudo a transparência”, diz Emily M. Bender, linguista computacional da Universidade de Washington (EUA) e crítica frequente da forma como os modelos de linguagem são desenvolvidos e implementados.
“É uma grande jogada”, diz Thomas Wolf, cientista-chefe da Hugging Face, a startup de IA por trás da BigScience, um projeto no qual mais de 1.000 voluntários em todo o mundo estão colaborando em um modelo de linguagem open-source. “Quanto mais modelos abertos, melhor”, diz ele.
Grandes modelos de linguagem, programas poderosos que podem gerar parágrafos de texto e imitar conversas humanas, tornaram-se uma das principais tendências em IA nos últimos dois anos. Mas eles têm falhas graves, como repetir como papagaios desinformação, preconceito e linguagem tóxica.
Em teoria, colocar mais pessoas para trabalhar no problema deve ajudar. No entanto, como os modelos de linguagem exigem grandes quantidades de dados e poder de computação para serem treinados, eles continuam sendo projetos para empresas ricas de tecnologia. A comunidade de pesquisa geral, incluindo especialistas em ética e cientistas sociais preocupados com seu uso indevido, teve que assistir dos bastidores.
Meta AI diz que quer mudar isso. “Muitos de nós foram pesquisadores universitários”, diz Pineau. “Conhecemos a lacuna que existe entre as universidades e a indústria na capacidade de construir esses modelos. Tornar este disponível para os pesquisadores foi uma escolha fácil”. Ela espera que outros se debrucem sobre seu trabalho e o desenvolvam. Avanços vêm mais rápido quando mais pessoas estão envolvidas, diz ela.
A Meta está disponibilizando seu modelo, chamado Open Pretrained Transformer (OPT), para uso não comercial. Também está liberando seu código e um diário de bordo documentando o processo de treinamento. O diário de bordo contém atualizações diárias dos membros da equipe sobre os dados de treinamento: como foi adicionado ao modelo e quando, o que funcionou e o que não funcionou. Em mais de 100 páginas de notas, os pesquisadores registram todos os bugs, falhas e reinicializações em um processo de treinamento de três meses que ocorreu continuamente de outubro de 2021 a janeiro de 2022.
Com 175 bilhões de parâmetros (os valores em uma rede neural que são ajustados durante o treinamento), o OPT é do mesmo tamanho que o GPT-3. Isso foi planejado, diz Pineau. A equipe construiu o OPT para corresponder com o GPT-3 tanto em sua precisão em tarefas de linguagem quanto em sua toxicidade. A OpenAI disponibilizou o GPT-3 como um serviço pago, mas não compartilhou o próprio modelo ou seu código. A ideia era fornecer aos pesquisadores um modelo de linguagem semelhante para estudar, diz Pineau.
A OpenAI recusou um convite para comentar o anúncio da Meta.
O Google, que está explorando o uso de grandes modelos de linguagem em seus produtos de busca, também foi criticado por falta de transparência. A empresa gerou controvérsia em 2020, quando forçou a demissão de membros importantes de sua equipe de ética em IA depois que eles produziram um estudo que destacou problemas com a tecnologia.
Choque cultural
Por que Meta está fazendo isso? Afinal, Meta é uma empresa que falou pouco sobre como os algoritmos por trás do Facebook e do Instagram funcionam e tem a reputação de esconder descobertas desfavoráveis de suas próprias equipes de pesquisa internas. Uma grande razão para a abordagem diferente da Meta AI é a própria Pineau, que vem pressionando por mais transparência na IA há vários anos.
Pineau ajudou a mudar a forma como as pesquisas são publicadas em várias das maiores conferências, apresentando uma lista de verificação de coisas que os pesquisadores devem enviar junto com seus resultados, incluindo código e detalhes sobre como os experimentos são executados. Desde que ingressou na Meta (então Facebook) em 2017, ela defendeu essa cultura em seu laboratório de IA.
“Esse compromisso com a ciência aberta é o motivo de eu estar aqui”, diz ela. “Eu não estaria aqui em outros termos”.
Acima de tudo, Pineau quer mudar a forma como julgamos a IA. “O que chamamos de tecnologia de ponta hoje não pode ser de ponta apenas em relação a desempenho”, diz ela. “Tem que ser de ponta também em termos de responsabilidade”.
Ainda assim, disponibilizar um grande modelo de linguagem é uma jogada ousada para a Meta. “Não posso dizer que não há risco de esse modelo produzir uma linguagem da qual não nos orgulhamos”, diz Pineau. “Ela o fará”.
Pesando os riscos
Margaret Mitchell, uma das pesquisadoras de ética em IA que o Google expulsou em 2020, que agora está no Hugging Face, vê o lançamento do OPT como um movimento positivo. Mas ela acha que há limites para a transparência. O modelo de linguagem foi testado com rigor suficiente? Os benefícios previsíveis superam os danos previsíveis, como a geração de desinformação ou linguagem racista e misógina?
“Colocar um grande modelo de linguagem no mundo, onde um grande público provavelmente o usará ou será afetado pelos seus resultados, traz responsabilidades”, diz ela. Mitchell observa que esse modelo será capaz de gerar conteúdo prejudicial não apenas por si mesmo, mas por meio dos aplicativos que os pesquisadores constroem em cima dele.
A Meta AI auditou o OPT para remover alguns comportamentos prejudiciais, mas o objetivo é lançar um modelo com o qual os pesquisadores possam aprender, expondo todos os prós e os contras, diz Pineau.
“Houve muitas conversas sobre como fazer isso de uma maneira que nos permita dormir à noite, pois sabemos que há riscos em termos de reputação e de danos”, diz ela. Ela descarta a ideia de que você não deve lançar um modelo só porque é muito perigoso, que é a razão que a OpenAI deu para não lançar o antecessor do GPT-3, o GPT-2. “Eu entendo as fraquezas desses modelos, mas esse não é o espírito de uma pesquisa”, diz ela.
Bender, coautor do estudo que desencadeou a disputa do Google com Mitchell, também está preocupado com a forma como os possíveis danos serão tratados. “Uma coisa que é realmente importante para mitigar os riscos de qualquer tipo de tecnologia de machine learning é basear avaliações e explorações em casos de uso específicos”, diz ela. “Para que será usado o sistema? Quem o usará e como os resultados do sistema serão apresentadas a eles? ”
Alguns pesquisadores questionam por que grandes modelos de linguagem estão sendo construídos, dado seu potencial de dano. Para Pineau, essas preocupações devem ser atendidas com mais exposição, não menos. “Acredito que a única maneira de construir confiança é a transparência extrema”, diz ela.
“Temos opiniões diferentes ao redor do mundo sobre qual discurso é apropriado, e a IA faz parte dessa conversa”, diz ela. Ela não espera que os modelos de linguagem digam coisas com as quais todos concordam. “Mas como lidamos com isso? Você precisa de muitas vozes nessa discussão”.