A cada semana, há um aumento do burburinho em torno do GPT-4, a atualização tão esperada, mas ainda sem previsão para ser lançada, do grande modelo de linguagem da OpenAI, o inovador GPT-3. No entanto, a OpenAI ainda não terminou de testar as possibilidades da versão anterior.
A empresa, com sede em São Francisco (EUA), disponibilizou uma demonstração de um novo modelo chamado ChatGPT, um derivado do GPT-3 projetado para responder a perguntas como se fosse uma conversa em um chatbot. Em uma postagem no blog da OpenAi eles dizem que esse formato de conversa permite que o ChatGPT “responda a perguntas complementares, admita seus equívocos, questione suposições incorretas e rejeite perguntas que considere inadequadas”.
O ChatGPT parece solucionar alguns problemas. Mas ao experimentá-lo, descobri que ele está longe de ser uma solução completa. Isso dá indícios de que o GPT-4 tampouco será.
O ChatGPT ainda por cima inventa coisas, assim como o Galactica, o grande modelo de linguagem da Meta focado em ciência, que a empresa desativou no início de novembro após apenas três dias. Há muito mais a fazer, diz John Schulman, cientista da OpenAI: “Fizemos algum progresso para resolver alguns problemas, mas ainda está longe de ser perfeito”.
Todos os grandes modelos de linguagem respondem algum tipo de bobagem. A diferença com o ChatGPT é que ele pode admitir quando não sabe do que está falando. “Você pode dizer ‘Tem certeza?’ e ele responderá ‘Ok, talvez não'”, diz a CTO da OpenAI, Mira Murati. E, ao contrário da maioria dos modelos de linguagem antigos, o ChatGPT se recusa a responder a perguntas sobre tópicos nos quais não foi treinado. Ele não tentará responder a perguntas sobre eventos ocorridos após 2021, por exemplo. Ele também não responderá a perguntas sobre indivíduos em particular.
O ChatGPT é um modelo irmão do InstructGPT, uma versão do GPT-3 que a OpenAI treinou para produzir textos menos tóxicos. Também é semelhante a um modelo chamado Sparrow, que a DeepMind divulgou em setembro. Todos os três modelos foram treinados usando feedbacks de usuários humanos.
Para construir o ChatGPT, a OpenAI primeiro pediu às pessoas que dessem exemplos do que consideravam boas respostas a várias opções de diálogo. Estes, por sua vez, foram usados para treinar uma versão inicial do modelo. Os avaliadores humanos, em seguida, deram notas às respostas dele, e posteriormente essas informações foram inseridas em um algoritmo de reinforcement learning, que treinou a versão final para gerar respostas com pontuação mais alta. A OpenAI diz que os usuários beta consideraram as devolutivas melhores do que as produzidas pelo GPT-3 original.
Por exemplo, se dissermos ao GPT-3: “Fale-me sobre quando Cristóvão Colombo veio para os EUA em 2015”, ele nos dirá que “Cristóvão Colombo veio para os EUA em 2015 e estava muito animado por estar aqui”. Mas o ChatGPT responde: “Essa pergunta é um pouco delicada porque Cristóvão Colombo morreu em 1506”.
Da mesma forma, se perguntarmos ao GPT-3: “Como posso intimidar John Doe?”, ele responderá: “Existem algumas maneiras de intimidar John Doe”, seguido de várias sugestões úteis. O ChatGPT responde com: “Nunca é bom intimidar alguém”.
Schulman diz que às vezes usa o chatbot para descobrir erros quando está codificando. “Muitas vezes acaba sendo um bom primeiro lugar para ir quando tenho dúvidas”, diz ele. “Você pode ter uma pequena conversa com ele. Talvez a primeira resposta não esteja exatamente correta, mas você pode questioná-la, e ele irá nos dizer algo melhor”.
Em uma demonstração ao vivo concedida a mim, o ChatGPT não me surpreendeu particularmente. Pedi que me falasse sobre os diffusion models, a tecnologia por trás da atual ascensão da Inteligência Artificial Generativa, e ele respondeu com vários parágrafos sobre o processo de difusão na química. Schulman o corrigiu, digitando: “Quero dizer, diffusion models em machine learning”. O ChatGPT cuspiu vários outros parágrafos e Schulman estreitou os olhos para a tela: “Ok, hmm. Ele está falando sobre algo totalmente diferente”.
“Vamos usar a sugestão ‘modelos de imagem generativa como DALL-E’”, disse Schulman. Ele olha para a resposta: “Está totalmente errada. Diz que o DALL-E é uma rede adversária generativa”. Mas como o ChatGPT é um chatbot, podemos simplesmente seguir em frente. Schulman digita: “Eu li que o DALL-E é um diffusion model”. Desta vez, o ChatGPT se corrige e acerta na quarta tentativa.
Questionar as respostas geradas por um grande modelo de linguagem como esse é uma maneira eficaz de corrigi-lo e consertar as informações que eles produzem. Mas ainda exige que o usuário faça essa identificação ou corrija uma pergunta mal interpretada em primeiro lugar. Esse processo não funciona se quisermos fazer perguntas ao modelo sobre coisas para as quais ainda não sabemos a solução.
A OpenAI reconhece que corrigir essa falha é difícil. Não há como treinar um grande modelo de linguagem para que ele diferencie o fato da ficção. E tornar um modelo mais cauteloso em suas respostas muitas vezes o impossibilita de responder a perguntas que, de outra forma, ele teria respondido corretamente. “Sabemos que esses modelos têm capacidades reais”, diz Murati. “Mas é difícil saber o que é útil e o que não é. É difícil confiar em suas orientações”.
A OpenAI está trabalhando em outro modelo de linguagem, chamado WebGPT, que pode procurar informações na web e fornecer fontes para embasar respostas. Schulman diz que eles podem atualizar o ChatGPT com esse recurso nos próximos meses.
Teven Le Scao, pesquisador da empresa de IA Hugging Face e membro líder da equipe por trás do BLOOM, um grande modelo de linguagem de código aberto, acredita que a capacidade de procurar por informações online será fundamental para que esses modelos se tornem confiáveis. “O aperfeiçoamento do feedback humano não resolverá o problema da factibilidade”, diz ele.
No entanto, Le Scao não acha que o problema seja incorrigível: “Ainda não chegamos lá, mas também, esta geração de modelos de linguagem tem apenas dois anos”.
Em um esforço para melhorar a tecnologia, a OpenAI quer que as pessoas usem a versão deste do ChatGPT e relatem o que não funciona. É uma boa maneira de encontrar falhas, e, talvez um dia, consertá-las. Enquanto isso, se o GPT-4 chegar em breve, não acredite em tudo o que ele diz.