Oferecido por
A OpenAI construiu uma nova versão do GPT-3, seu revolucionário modelo de linguagem, que promete eliminar alguns dos problemas mais tóxicos que atormentaram seu antecessor. O laboratório com sede em São Francisco (EUA) diz que o modelo atualizado, chamado InstructGPT, é melhor em seguir as instruções das pessoas que o usam (um conceito conhecido como “alinhamento”, no jargão da IA) e, portanto, produz menos linguagem ofensiva, menos informações erradas e comete menos erros em geral, a menos que explicitamente instruído de outra forma.
Grandes modelos de linguagem como o GPT-3 são treinados usando enormes corpos de texto, principalmente da internet, nos quais eles encontram o melhor e o pior do que as pessoas escrevem. Isso é um problema para os chatbots e ferramentas de geração de texto de hoje. Os modelos absorvem linguagem tóxica de textos racistas e misóginos ou que contém preconceitos mais insidiosos e entranhados, assim como inverdades.
A OpenAI tornou o IntructGPT o modelo padrão para usuários de sua Interface de Programação de Aplicações (API, pela sigla em inglês), um serviço que dá acesso aos modelos de linguagem da empresa mediante o pagamento de uma taxa. O GPT-3 ainda estará disponível, mas a OpenAI não recomenda usá-lo. “É a primeira vez que essas técnicas de alinhamento estão sendo aplicadas a um produto real”, diz Jan Leike, que co-lidera a equipe de alinhamento da OpenAI.
Tentativas anteriores de resolver o problema incluíam filtrar a linguagem ofensiva do conjunto de textos usados em treinamento. Mas isso pode fazer com que os modelos tenham um desempenho inferior, especialmente nos casos em que os dados de treinamento já são escassos, como textos escritos por grupos minoritários.
Os pesquisadores da OpenAI evitaram esse problema começando com um modelo GPT-3 totalmente treinado. Eles então iniciaram outra rodada de treinamento, usando reinforcement learning para ensinar ao modelo o que deveria dizer e quando, com base nas preferências dos usuários humanos.
Para treinar o InstructGPT, a OpenAI contratou 40 pessoas para avaliar as respostas do GPT-3 com base em uma variedade de instruções predeterminadas, como “Escreva uma história sobre um sapo inteligente chamado Julius” ou “Escreva um anúncio criativo para o seguinte produto para ser veiculado no Facebook”. As respostas que pareciam mais alinhadas com a aparente intenção do autor pontuaram mais alto. As respostas que continham linguagem sexual ou violenta, humilhavam um grupo específico de pessoas, receberam a classificação mais baixa. Essa classificação foi então usada como recompensa em um algoritmo de reinforcement learning que treinou o InstructGPT para combinar as respostas aos prompts da maneira mais apropriada, com base em avaliadores humanos.
A OpenAI descobriu que os usuários de sua API preferiam o InstructGPT ao GPT-3 em mais de 70% das vezes. “Não estamos mais vendo erros gramaticais na geração de textos”, diz Ben Roe, gerente de produto da Yabble, uma empresa de pesquisa de mercado que usa os modelos da OpenAI para criar resumos em linguagem natural dos dados de negócios de seus clientes. “Também há um progresso claro na capacidade dos novos modelos de entender e seguir as instruções”.
“É empolgante ver que os clientes preferem muito mais esses modelos alinhados”, diz Ilya Sutskever, cientista-chefe da OpenAI. “Isso significa que há muitos incentivos para construí-los”.
Os pesquisadores também compararam versões de tamanhos diferentes do InstructGPT e descobriram que os usuários preferiam as respostas de um modelo InstructGPT de 1,3 bilhão de parâmetros às de um GPT-3 de 175 bilhões de parâmetros, embora o modelo fosse mais de 100 vezes menor. Isso significa que o alinhamento pode ser uma maneira fácil de melhorar os modelos de linguagem, em vez de apenas aumentar seu tamanho, diz Leike.
“Este trabalho dá um passo importante na direção certa”, diz Douwe Kiela, pesquisador da Hugging Face, uma empresa de IA que trabalha em modelos de linguagem de código aberto. Ele sugere que o processo de treinamento baseado em classificações possa ser repetido por muitas rodadas, melhorando ainda mais o modelo. Leike diz que a OpenAI poderia fazer isso com base no feedback dos clientes.
O InstructGPT ainda comete erros simples, às vezes produzindo respostas irrelevantes ou sem sentido. Se for inserido um prompt que contém uma falsidade, por exemplo, ele tomará essa inverdade como verdadeira. E porque foi treinado para fazer o que as pessoas pedem, o InstructGPT produzirá uma linguagem muito mais tóxica do que o GPT-3, se instruído a fazê-lo.
Ehud Reiter, que trabalha com Inteligência Artificial (IA) de geração de texto na Universidade de Aberdeen, no Reino Unido, dá as boas-vindas a qualquer técnica que reduza a quantidade de desinformação produzida pelos modelos de linguagem. Mas ele ressalta que, para algumas aplicações, como a IA que dá conselhos médicos, nenhuma quantidade de informação falsa é aceitável. Reiter questiona se grandes modelos de linguagem, baseados em redes neurais de caixa preta, poderiam garantir a segurança do usuário. Por esse motivo, ele prefere uma combinação de redes neurais com IA simbólica, já que regras codificadas limitam o que um modelo pode e não pode dizer.