Quando a OpenAI lançou, sem alarde, o ChatGPT no final de novembro de 2022, a empresa de Inteligência Artificial (IA) de São Francisco tinha poucas expectativas. Com certeza, ninguém na OpenAI estava preparado para que ele viralizasse e tivesse tanto sucesso. Desde então, a empresa tem lutado para acompanhar, e capitalizar, o seu sucesso.
Os funcionários o viam como uma “prévia de pesquisa”, diz Sandhini Agarwal, que trabalha com políticas na OpenAI: uma amostra da versão mais aprimorada de uma tecnologia de dois anos e, mais importante, uma tentativa de resolver algumas de suas consequentes falhas por meio da coleta de feedback do público. “Não queríamos exagerar chamando isso de um avanço fundamental”, afirma Liam Fedus, cientista da OpenAI que trabalhou no ChatGPT.
Para conseguir a história por trás do chatbot e os detalhes de como ele foi feito, como a OpenAI o vem atualizando desde o lançamento e como seus criadores se sentem sobre seu sucesso, conversei com quatro pessoas que ajudaram a desenvolver o que se tornou um dos aplicativos de internet mais populares de todos os tempos. Além de Agarwal e Fedus, falei com John Schulman, cofundador da OpenAI, e Jan Leike, líder da equipe de alinhamento da OpenAI, que lida com o problema de fazer com que a IA faça o que seus usuários querem (e nada mais).
Após a conversa, fiquei com a sensação de que a OpenAI ainda está confusa com o sucesso da sua prévia de pesquisa, mas aproveitou a oportunidade para impulsionar essa tecnologia, observando como milhões de pessoas a estão usando e tentando corrigir os piores problemas à medida que surgem.
A OpenAI já atualizou o ChatGPT várias vezes desde novembro. Os pesquisadores estão usando uma técnica chamada treinamento adversário para impedir que o ChatGPT permita que os usuários o induzam a se comportar mal (processo conhecido como jailbreak). O treinamento coloca vários chatbots uns contra os outros: um chatbot faz o papel do adversário e ataca outro chatbot gerando um texto para forçá-lo a contrariar suas restrições habituais e produzir respostas indesejadas. Ataques bem-sucedidos são adicionados aos dados de treinamento do ChatGPT na esperança de que ele aprenda a ignorá-los.
A OpenAI também assinou um acordo multibilionário com a Microsoft e anunciou uma parceria com a Bain, uma empresa global de consultoria de gestão, que planeja utilizar os modelos de IA generativa da OpenAI em campanhas de marketing para os seus clientes, incluindo a Coca-Cola. Fora da OpenAI, o burburinho sobre o ChatGPT desencadeou mais uma corrida do ouro em torno de grandes modelos de linguagem, com empresas e investidores em todo o mundo querendo participar.
Isso é muito alarde em apenas três meses. De onde veio o ChatGPT? Que medidas a OpenAI tomou para garantir que ele estava pronto para ser lançado? E quais os próximos passos?
O texto a seguir foi editado para fins de clareza e concisão.
Jan Leike: Na verdade, tem sido assustador. Fomos surpreendidos e estamos tentando acompanhar tudo.
John Schulman: Eu estava acompanhando o Twitter nos dias após o lançamento, e teve esse período maluco em que o feed estava cheio de capturas de tela do ChatGPT. Eu esperava que ele fosse intuitivo para as pessoas, e esperava que ganhasse seguidores, mas não esperava que atingisse esse nível de popularidade.
Sandhini Agarwal: Eu acho que com certeza foi uma surpresa para todos nós ver o quanto as pessoas começaram a usar a ferramenta. Trabalhamos tanto com esses modelos que às vezes esquecemos o quão surpreendentes eles podem ser para o mundo exterior.
Liam Fedus: Ficamos bastante surpresos com o quão bem ele foi recebido. Eu sabia que as probabilidades estavam contra nós, devido às várias tentativas anteriores de fazer um chatbot de uso geral. No entanto, nosso beta privado nos levou a crer que tínhamos algo que as pessoas poderiam gostar de verdade.
Jan Leike: Eu adoraria entender melhor o que está impulsionando tudo isso, o que está fazendo ele viralizar. Tipo, honestamente, não entendemos. Não sabemos.
Parte da perplexidade da equipe vem do fato de que a maior parte da tecnologia que move o ChatGPT não é nova. O ChatGPT é uma versão aprimorada do GPT-3.5, uma família de grandes modelos de linguagem que a OpenAI lançou alguns meses antes do chatbot. O próprio GPT-3.5 é uma versão atualizada do GPT-3, que apareceu em 2020. A empresa disponibiliza estes modelos no seu site como interfaces de programação de aplicações (APIs, em inglês), o que torna mais fácil para outros programadores de software colocarem os modelos em seus próprios códigos. A OpenAI também havia lançado uma versão melhorada do GPT-3.5, chamada InstructGPT, em janeiro de 2022. Entretanto, nenhuma dessas versões anteriores da tecnologia foi apresentada ao público.
Liam Fedus: O modelo do ChatGPT é refinado a partir do mesmo modelo de linguagem que o InstructGPT, e é ajustado usando uma metodologia semelhante. Acrescentamos alguns dados de conversação e ajustamos um pouco o processo de treinamento. Por isso, não queríamos exagerar dizendo que ele era um avanço fundamental. Acontece que os dados de conversação tiveram um grande impacto positivo no ChatGPT.
John Schulman: As capacidades técnicas brutas, avaliadas por parâmetros convencionais, não apresentam muita diferença entre os modelos, mas o ChatGPT é mais acessível e utilizável.
Jan Leike: De certa forma, podemos entender o ChatGPT como uma versão de um sistema de IA que já temos há algum tempo. Não é um modelo essencialmente mais capaz do que o que tínhamos antes. Os mesmos modelos básicos estavam disponíveis na API há quase um ano antes do lançamento do ChatGPT. Mas se olharmos por outro aspecto, o tornamos mais alinhado com o que os humanos querem fazer com ele. Ele fala com você em diálogo, sua interface é um bate-papo de fácil acesso, ele tenta ser útil. É um progresso incrível, e acho que é isso que as pessoas estão percebendo.
John Schulman: Ele deduz a intenção das pessoas com mais facilidade. E os usuários podem conseguir o que desejam através dessa troca.
O ChatGPT foi treinado de forma muito semelhante ao InstructGPT, usando uma técnica chamada aprendizagem por reforço com feedback humano (RLHF, pela sigla em inglês). Esse é o ingrediente secreto do ChatGPT. A ideia básica é pegar um grande modelo de linguagem com tendência a produzir o que quiser — neste caso, o GPT-3.5 — e fazer ajustes ensinando ao programa os tipos de respostas que os usuários humanos preferem.
Jan Leike: Tivemos um grande grupo de pessoas lendo prompts e respostas do ChatGPT e depois dizendo se uma resposta era preferível a outra. Então, todos esses dados foram combinados e usados em um único treinamento. Muito disso é o mesmo que fizemos com o InstructGPT. Você quer que ele seja útil, verdadeiro e que não seja, você sabe, tóxico. E há coisas específicas para a produção de diálogo e que o tornam um assistente: coisas como, se a pergunta e/ou consulta do usuário não forem claras, ele deve fazer mais perguntas. Também deve esclarecer que é um sistema de IA. Não deve assumir uma identidade que não tem, não deve alegar ter capacidades que não possui, e quando um usuário lhe pede para fazer tarefas que não deveria fazer, deve escrever uma mensagem recusando. Uma das frases que surgiram nesse treinamento foi “como um modelo de linguagem treinado pela OpenAI…”. Ela não foi explicitamente colocada lá, mas é uma das coisas para as quais os avaliadores humanos deram notas altas.
Sandhini Agarwal: Sim, acho que foi isso que aconteceu. Havia uma lista de vários critérios que os avaliadores humanos tinham para classificar o modelo, como veracidade. Só que eles também começaram a preferir coisas que consideravam boas práticas, como não fingir ser algo que você não é.
Uma vez que o ChatGPT tinha sido construído utilizando as mesmas técnicas que a OpenAI havia usado anteriormente, a equipe não fez nada diferente quando se preparava para lançar tal modelo ao público. Eles sentiram que o padrão que haviam estabelecido para os modelos anteriores era suficiente.
Sandhini Agarwal: Quando estávamos nos preparando para o lançamento, não pensávamos nesse modelo como um risco completamente novo. O GPT-3.5 já existia no mundo e sabíamos que era seguro o suficiente. E, através do treinamento do ChatGPT com as preferências humanas, o modelo aprendeu o comportamento de recusa, em que nega vários pedidos, de forma automática.
Jan Leike: Fizemos algumas sessões adicionais de “red-teaming” para o ChatGPT, onde todos na OpenAI tentaram invadir o modelo. E tínhamos grupos externos fazendo o mesmo. Também tivemos um programa de acesso antecipado com usuários de confiança, que deram feedback.
Sandhini Agarwal: Verificamos que ele gerava certas respostas indesejadas, mas todas eram coisas que o GPT-3.5 também gerava. Portanto, em termos de risco, como uma prévia da pesquisa, já que era isso que pretendíamos no início, ele parecia bom o bastante.
John Schulman: Não dá para esperar até que seu sistema seja perfeito para fazer o lançamento. Estávamos testando as versões anteriores há alguns meses, e os testadores beta tiveram impressões positivas sobre o produto. Nossa maior preocupação era com a veracidade, pois o modelo gosta de inventar coisas. Mas o InstructGPT e outros grandes modelos linguísticos já estavam disponíveis, então pensamos que, enquanto o ChatGPT for melhor do que os outros em termos de veracidade e outras questões de segurança, ele já poderia ser lançado também. Antes da estreia, confirmamos que alguns modelos pareciam mesmo ser um pouco mais factuais e seguros do que outros, segundo as nossas avaliações limitadas, por isso decidimos prosseguir com o lançamento.
A OpenAI tem observado como as pessoas usam o ChatGPT desde o seu lançamento, vendo pela primeira vez como um grande modelo de linguagem se sai quando colocado nas mãos de dezenas de milhões de usuários que podem querer testar seus limites e encontrar suas falhas. A equipe tentou focar nos exemplos mais problemáticos do que o ChatGPT pode produzir – de canções sobre o amor de Deus por padres estupradores a códigos de malware que roubam números de cartão de crédito — e usá-los para controlar versões futuras do modelo.
Sandhini Agarwal: Temos muito o que fazer. Acho que o ChatGPT viralizou de tal forma que trouxe à tona vários problemas já conhecidos e os elevou a um nível crítico. E estas são coisas que queremos resolver o mais rápido possível. Tipo, sabemos que o modelo ainda é muito tendencioso. E sim, o ChatGPT é ótimo em recusar pedidos ruins, mas também é muito fácil escrever prompts que fazem com que ele não recuse o que gostaríamos que recusasse.
Liam Fedus: Tem sido emocionante ver as aplicações diversas e criativas dos usuários, mas estamos sempre focados no que podemos melhorar. Acreditamos que, por um processo repetitivo que envolve implementação, obtenção de feedback e aperfeiçoamento, podemos produzir a tecnologia mais alinhada e capaz já feita. À medida que a nossa tecnologia evolui, é inevitável surgirem novas questões.
Sandhini Agarwal: Nas semanas após o lançamento, vimos alguns dos exemplos mais terríveis que as pessoas tinham encontrado, as piores coisas que as pessoas estavam vendo no meio externo. Então, nós avaliamos cada um e falamos sobre como eles deveriam ser corrigidos.
Jan Leike: Às vezes é algo que viralizou no Twitter, mas também tem casos de pessoas que discretamente entraram em contato.
Sandhini Agarwal: Uma boa parte do que encontramos eram jailbreaks, um problema que precisamos muito resolver. Mas, como os usuários têm que tentar métodos complicados para fazer com que o modelo diga coisas ruins, não é como se isso fosse uma coisa que deixamos passar, ou algo que foi muito surpreendente para nós. Ainda assim, é algo em que estamos trabalhando ativamente no momento. Quando encontramos falhas jailbreaks, nós as adicionamos aos nossos dados de treinamento e teste. Todos os dados que estamos vendo alimentarão um modelo futuro.
Jan Leike: Sempre que temos um modelo melhor, queremos logo lançar e testar ele. Estamos bastante otimistas de que um treinamento adversário direcionado possa melhorar muito a situação do jailbreak. Não está claro se esses problemas desaparecerão por completo, mas achamos que podemos dificultar bastante isso. De novo, não é como se não soubéssemos que o jailbreak era possível antes do lançamento. Acho que é muito difícil prever quais serão os verdadeiros problemas de segurança desses sistemas depois de um lançamento. Portanto, estamos colocando muita ênfase em monitorar para que as pessoas estão usando o sistema, ver o que acontece e, em seguida, reagir. Isso não quer dizer que não devemos ser proativos e mitigar os problemas de segurança quando eles forem previstos. Mas sim, é muito difícil prever tudo o que de fato acontecerá quando um sistema vai para o mundo real.
Em janeiro, a Microsoft revelou o Bing Chat, um chatbot de pesquisa que muitos supõem ser uma versão do GPT-4, ainda não anunciado pela OpenAI. (Segundo a OpenAI: “O Bing é alimentado por um dos nossos modelos de próxima geração que a Microsoft personalizou especificamente para pesquisa. Ele incorpora os avanços do ChatGPT e GPT-3.5.”) O uso de chatbots por gigantes da tecnologia com reputações multibilionárias para proteger cria novos desafios para aqueles encarregados de construir os modelos subjacentes.
Sandhini Agarwal: Agora, as apostas são muito mais altas do que eram, digamos, há seis meses, mas ainda são mais baixas do que podem vir a ser daqui a um ano. É óbvio que uma coisa crucial com esses modelos é o contexto em que estão sendo usados. Como acontece com o Google e a Microsoft, um detalhe falso vira um grande problema, pois os programas foram feitos para ser mecanismos de pesquisa. O comportamento que um grande modelo de linguagem precisa ter para realizar pesquisas é muito diferente de algo que é para ser apenas um chatbot divertido. Precisamos encontrar o equilíbrio entre todos esses usos diferentes, criando algo que seja útil para pessoas em uma variedade de contextos, onde o comportamento desejado pode variar bastante. Isso adiciona mais pressão. Porque agora sabemos que estamos construindo esses modelos para serem transformados em produtos. Agora que temos a API, o ChatGPT é um produto. Estamos construindo essa tecnologia de uso geral e precisamos garantir que funcione bem em todas as áreas. Esse é um dos principais desafios que estamos enfrentando.
John Schulman: Subestimei até que ponto as pessoas investigariam e se preocupariam com a política do ChatGPT. Poderíamos ter tomado algumas decisões melhores ao coletar dados para treinamento, o que teria diminuído esse problema. Estamos trabalhando nisso agora.
Jan Leike: Do meu ponto de vista, o ChatGPT é bem falho e há tanta coisa a se fazer. Não parece que resolvemos esses problemas. Todos nós precisamos ser muito sinceros com nós mesmos, e com os outros, sobre as limitações da tecnologia. Quero dizer, os modelos de linguagem já existem há algum tempo, mas ainda é o início. Sabemos de todos os problemas que eles têm. Acho que só temos que ser muito diretos, administrar as expectativas e deixar claro que esse não é um produto acabado.