Foi um ano de modelos de IA superdimensionados.
Quando a OpenAI lançou a GPT-3, em junho de 2020, o aparente domínio da linguagem da rede neural era incrível. Ela podia gerar frases convincentes, conversar com humanos e até mesmo preencher automaticamente códigos. A GPT-3 também era monstruosa em escala — maior do que qualquer outra rede neural já construída. Isso deu início a uma tendência totalmente nova em IA, em que quanto maior, melhor.
Apesar da predisposição da GPT-3 de reproduzir o preconceito e a toxicidade inerentes ao texto on-line em que foi treinada, e embora uma quantidade insustentável e enorme de capacidade de computação seja necessária para ensinar seus truques a um modelo tão grande, escolhemos a GPT-3 como uma das nossas tecnologias inovadoras de 2020 — para o bem e para o mal.
Mas o impacto da GPT-3 ficou ainda mais claro em 2021. O ano passado trouxe uma proliferação de grandes modelos de IA construídos por várias empresas de tecnologia e laboratórios de IA de ponta, muitos superando o próprio GPT-3 em tamanho e capacidade. Qual o tamanho que eles podem ter e a que preço?
A GPT-3 chamou a atenção do mundo não apenas pelo que poderia fazer, mas por como o fez. O salto surpreendente no desempenho, especialmente a capacidade da GPT-3 de generalizar as tarefas de linguagem nas quais não havia sido especificamente treinada, não veio de algoritmos melhores (embora dependa fortemente de um tipo de rede neural inventada pelo Google em 2017, chamada Transformer), mas por seu tamanho absoluto.
Em uma recente discussão na principal conferência de inteligência artificial, a NeurIPS, o pesquisador da OpenAI e um dos designers da GPT-3, Jared Kaplan, admitiu: “Achamos que precisávamos de uma nova ideia, mas conseguimos [melhorar seu desempenho] apenas aumentando seu tamanho”.
“Continuamos a ver um grande aumento nos tamanhos dos modelos de IA, que levam a um melhor desempenho, aparentemente sem fim à vista”, escreveram dois pesquisadores da Microsoft em outubro em uma postagem de blog ao anunciarem o enorme modelo da empresa, o Megatron-Turing NLG, desenvolvido em colaboração com a Nvidia.
O que significa um modelo ser grande? O tamanho de um modelo, de uma rede neural treinada, é medido pelo número de parâmetros que possui. Esses são os valores que são alterados continuamente durante o treinamento e, em seguida, usados para fazer as previsões do modelo. De modo geral, quanto mais parâmetros um modelo possui, mais informações ele pode absorver de seus dados de treinamento e mais precisas serão suas previsões sobre os novos dados.
O GPT-3 tem 175 bilhões de parâmetros, 10 vezes mais do que seu predecessor, o GPT-2. Mas o GPT-3 é ofuscado pela geração de 2021. O Jurassic-1, um grande modelo de linguagem disponível comercialmente lançado pela startup americana, AI21 Labs, em setembro, superou o GPT-3 com 178 bilhões de parâmetros. Gopher, um novo modelo lançado pela DeepMind em dezembro, tem 280 bilhões de parâmetros. Megatron-Turing NLG tem 530 bilhões. Os modelos Switch-Transformer e GLaM do Google têm 1 trilhão e 1,2 trilhão de parâmetros, respectivamente.
A tendência não é apenas nos EUA. Em 2021, a gigante chinesa da tecnologia Huawei construiu um modelo de linguagem de 200 bilhões de parâmetros chamado PanGu. A Inspur, outra empresa chinesa, construiu o Yuan 1.0, um modelo de 245 bilhões de parâmetros. O Baidu and Peng Cheng Laboratory, um instituto de pesquisa em Shenzhen (China), anunciou o PCL-BAIDU Wenxin, um modelo com 280 bilhões de parâmetros que o Baidu já está usando em uma variedade de aplicações, incluindo pesquisa na Internet, feeds de notícias e alto-falantes inteligentes. E a Academia de IA de Pequim (China) anunciou o Wu Dao 2.0, que tem 1,75 trilhão de parâmetros.
Enquanto isso, a empresa sul-coreana de buscas na Internet, Naver, anunciou um modelo chamado HyperCLOVA, com 204 bilhões de parâmetros.
Cada um deles é um feito notável de engenharia. Para começar, treinar um modelo com mais de 100 bilhões de parâmetros é um problema muito complexo: centenas de GPUs individuais (Graphics Processing Unit, ou Unidades de Processamento Gráfico), o hardware escolhido para treinar redes neurais profundas, devem ser conectados e sincronizados, e a divisão de dados do treinamento deve passar por fragmentos organizados na ordem correta e no momento certo.
Grandes modelos de linguagem tornaram-se projetos de prestígio que mostram as proezas técnicas de uma empresa. Ainda assim, poucos desses novos modelos
ajudam realmente no avanço da pesquisa, a não ser repetir a demonstração de que uma escala maior funciona.
Existem apenas algumas inovações. Após o treinamento, o Switch-Transformer e o GLaM do Google usam uma fração de seus parâmetros para fazer previsões, economizando assim capacidade de computação. O PCL-Baidu Wenxin combina um modelo no estilo GPT-3 com um gráfico de conhecimento, uma técnica usada pela velha guarda da IA simbólica para armazenar fatos. E ao lado do Gopher, a DeepMind lançou o RETRO, seu modelo de linguagem com apenas 7 bilhões de parâmetros que compete com outros modelos 25 vezes seu tamanho, comparando as informações de um banco de dados de documentos para a geração de texto. Isso torna o RETRO mais barato para treinar do que seus rivais gigantes.
No entanto, apesar dos resultados impressionantes, os pesquisadores ainda não entendem exatamente por que o aumento do número de parâmetros leva a um melhor desempenho. Eles também não têm uma solução para a linguagem tóxica e a desinformação que esses modelos aprendem e repetem. Como a equipe GPT-3 original reconheceu em um artigo que descreve a tecnologia: “Modelos treinados pela Internet contêm os preconceitos da Internet”.
A DeepMind afirma que o banco de dados RETRO é mais fácil de filtrar por linguagem prejudicial do que um modelo de caixa preta monolítico, mas não testou isso totalmente. Mais insights podem vir da iniciativa BigScience, um consórcio criado pela Hugging Face, uma empresa de IA, que consiste em cerca de 500 pesquisadores, muitos de grandes empresas de tecnologia, dedicando seu tempo para construir e estudar um modelo de linguagem de código aberto.
Em um artigo publicado no início de 2021, Timnit Gebru e seus colegas destacaram uma série de problemas não resolvidos com os modelos como o GPT-3: “Gostaríamos de saber se foi dada atenção suficiente aos riscos potenciais associados ao seu desenvolvimento e estratégias para mitigá-los”, escreveram.
Apesar de todo o esforço investido na construção de novos modelos de linguagem no ano passado, a IA ainda está presa na sombra do GPT-3. “Em 10 ou 20 anos, os modelos em grande escala serão a norma”, disse Kaplan durante a apresentação no NeurIPS. Nesse caso, é hora de os pesquisadores se concentrarem não apenas no tamanho de um modelo, mas também no que fazem com ele.