A DeepMind diz que seu novo modelo de linguagem pode superar outros que são 25 vezes seu tamanho

Nos dois anos desde que a OpenAI lançou seu modelo de linguagem GPT-3, a maioria dos grandes laboratórios de Inteligência Artificial desenvolveram seus próprios simuladores de linguagem. O Google, o Facebook e a Microsoft, bem como um punhado de empresas chinesas, criaram Inteligência Artificiais (IAs) que podem gerar um texto convincente, conversar com humanos, responder perguntas e muito mais.

Conhecidos como grandes modelos de linguagem (LLMs, pela sua sigla em inglês) devido ao enorme tamanho das redes neurais que os sustentam, eles se tornaram uma tendência dominante em IA, mostrando tanto seus pontos fortes, como a notável capacidade das máquinas de usar a linguagem, quanto seus pontos fracos, especialmente os preconceitos inerentes à IA e a quantidade insustentável de poder de computação que pode consumir.

Até agora, a DeepMind tem se destacado por sua ausência no campo. Mas a empresa com sede no Reino Unido, responsável por algumas das conquistas mais impressionantes em IA, incluindo AlphaZero e AlphaFold, repentinamente entrou neste terreno com a publicação simultânea de três novos estudos sobre os grandes modelos de linguagem de IA. O principal resultado da DeepMind é uma IA com uma reviravolta: seu aprimoramento consiste em uma memória externa na forma de um vasto banco de dados que contém fragmentos de texto, que a IA usa como uma espécie de folha de consulta para gerar novas frases.

Chamado de RETRO (abreviação para Retrieval-Enhanced Transformer), a IA corresponde ao desempenho das redes neurais 25 vezes maior que o seu tamanho, reduzindo o tempo e o custo necessários para treinar modelos muito grandes. Os pesquisadores também afirmam que o banco de dados torna mais fácil analisar o que a IA aprendeu, o que pode ajudar a filtrar preconceitos e linguagem tóxica.

“Ser capaz de pesquisar as coisas na hora, em vez de ter que memorizar tudo, muitas vezes pode ser útil, como é para os humanos”, diz Jack Rae da DeepMind, chefe de pesquisa de LLMs da empresa.

Os modelos de linguagem geram um texto ao prever quais palavras vêm a seguir em uma frase ou conversa. Quanto maior o modelo, mais informações sobre o mundo ele pode aprender durante o treinamento, o que torna suas previsões melhores. O GPT-3 tem 175 bilhões de parâmetros, que são os valores em uma rede neural que armazenam dados e são ajustados conforme o modelo aprende. O modelo de linguagem Megatron-Turing da Microsoft tem 530 bilhões de parâmetros. Mas os LLMs também exigem grande capacidade de computação para serem treinados, o que os coloca fora do alcance da maioria das organizações, exceto as mais ricas.

Com o RETRO, a DeepMind tentou reduzir o custo do treinamento sem reduzir a quantidade de dados que a IA aprende. Os pesquisadores treinaram o modelo em um vasto conjunto de dados de artigos de notícias, páginas da Wikipedia, livros e texto do GitHub, um repositório de código online. O conjunto de dados contém texto em 10 idiomas, incluindo inglês, espanhol, alemão, francês, russo, chinês, suaíli e urdu.

A rede neural do RETRO tem apenas 7 bilhões de parâmetros. Mas o sistema compensa isso com um banco de dados contendo cerca de 2 trilhões de passagens de texto. A rede neural e o banco de dados são treinados ao mesmo tempo.

Quando o RETRO gera um texto, ele usa o banco de dados para pesquisar e comparar passagens semelhantes àquela que está escrevendo, o que torna suas previsões mais precisas. Terceirizar parte da memória da rede neural para o banco de dados permite que o RETRO faça mais com menos.

A ideia não é nova, mas esta é a primeira vez que um sistema de pesquisa foi desenvolvido para um LLM, e a primeira vez que esta abordagem mostrou corresponder ao desempenho das melhores IAs de linguagem existentes.

Maior nem sempre é melhor

O RETRO baseia-se em dois estudos complementares lançados pela DeepMind, um analisando como o tamanho de um modelo afeta seu desempenho e outro, os danos potenciais causados por esses IAs.

Para estudar o tamanho, a DeepMind construiu um LLM chamado Gopher, com 280 bilhões de parâmetros, que superou os modelos mais avançados em 82% dos mais de 150 desafios de linguagem comuns usados para teste. Os pesquisadores então compararam-no com o RETRO e descobriram que o modelo de 7 bilhões de parâmetros correspondiam ao desempenho de Gopher na maioria das tarefas.

O estudo de ética é uma pesquisa abrangente de problemas bem conhecidos inerentes a LLMs. Esses modelos captam preconceitos, desinformação e linguagem tóxica, como discurso de ódio, dos artigos e livros nos quais são treinados. Como resultado, às vezes eles produzem declarações prejudiciais, refletindo o que encontraram no texto de treinamento, sem saber o que isso significa. “Mesmo um modelo que imitasse perfeitamente os dados seria tendencioso”, diz Rae.

De acordo com a DeepMind, o RETRO pode ajudar a resolver esse problema porque é mais fácil ver o que a IA aprendeu examinando o banco de dados do que estudando a rede neural. Em teoria, isso pode permitir que você filtre exemplos de linguagem prejudicial ou compare-os com outras não prejudiciais. Mas a DeepMind ainda não testou essa afirmação. “Não é um problema totalmente resolvido e o trabalho está em andamento para lidar com esses desafios”, disse Laura Weidinger, uma cientista pesquisadora da DeepMind.

O banco de dados também pode ser atualizado sem retreinar a rede neural. Isso significa que novas informações, como quem ganhou o US Open, podem ser adicionadas rapidamente e informações desatualizadas ou falsas podem ser removidas.

Sistemas como o RETRO são mais transparentes do que os modelos de caixa preta como o GPT-3, diz Devendra Sachan, estudante de doutorado na Universidade McGill, no Canadá. “Mas isso não é uma garantia de que irá prevenir a toxicidade e o preconceito”. Sachan desenvolveu um precursor do RETRO em uma colaboração anterior com a DeepMind, mas ele não estava envolvido neste último trabalho

Para Sachan, consertar o comportamento prejudicial dos modelos de linguagem requer uma curadoria cuidadosa dos dados de treinamento antes do início dele. Ainda assim, sistemas como o RETRO podem ajudar: “É mais fácil adotar essas diretrizes quando um modelo faz uso de dados externos para suas previsões”, diz ele.

A DeepMind pode estar atrasada para o debate. Mas, ao invés de tentar superar a concorrência em seu próprio campo de jogo, está nivelando-o com uma abordagem alternativa. “Este é o futuro dos LLMs”, diz Sachan.

Assine

A DeepMind diz que seu novo modelo de linguagem pode superar outros que são 25 vezes seu tamanho

Maior nem sempre é melhor

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Participação social nas decisões sobre tecnologias no SUS

Game dos clones: os novos lobos da empresa de biotecnologia Colossal são fofos, mas seriam eles terríveis?

Último vídeo

Ética

Tecnologia, ética e o impacto de nossas escolhas

Inteligência Artificial e Ética Global: entre a promessa do progresso e a ameaça da desumanização

Inteligência estatal

Seu chefe está de olho em você

Por que entregar o controle total a sistemas de IA pode custar caro?

Corpos humanos ‘sobressalentes’ com origem ética poderiam revolucionar a medicina

A comunidade de física dos EUA ainda está reconstruindo a confiança

O papel do marketing de influência na popularização da ciência

Quem é o autor dessa obra?

Por dentro da corrida para encontrar alternativas ao GPS

Quatro razões para ser otimista sobre o consumo de energia no uso de IA

Com público recorde, o terceiro e último dia do Energy Summit 2025 foi marcado pela presença do governador do Rio de Janeiro, Cláudio Castro, encerrando o evento em grande estilo.

Vem aí o primeiro centro de tratamentos médicos experimentais dos Estados Unidos

Acesso à inovação: tratamentos experimentais e o “direito de tentar”

Tecnologia policial pode contornar proibições sobre reconhecimento facial

Segundo dia do Energy Summit 2025 conta com palestra de Prêmio Nobel da Paz e debates sobre infraestrutura energética na América Latina, capital de risco e o papel estratégico das políticas públicas

A corrida do sódio e os novos caminhos para a eletrificação global

Nossos tópicos

Newsletter

Conecte-se

Assine nossa newsletter

Maior nem sempre é melhor

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos