Finalmente, a OpenAI lançou o GPT-5. O novo sistema abandona a distinção entre os modelos principais da OpenAI e a sua série de modelos de raciocínio o, direcionando automaticamente as solicitações dos usuários para um modelo rápido, sem raciocínio, ou para uma versão mais lenta, com raciocínio. Ele já está disponível para todos na interface web do ChatGPT, embora usuários não pagantes possam precisar esperar alguns dias para ter acesso completo às novas funcionalidades.
É tentador comparar o GPT-5 com seu predecessor explícito, o GPT-4, mas a justaposição mais esclarecedora é com o o1, o primeiro modelo de raciocínio da OpenAI, lançado no ano passado. Em contraste com o amplo lançamento do GPT-5, o o1 estava inicialmente disponível apenas para assinantes Plus e Team. Esses usuários tiveram acesso a um tipo completamente novo de modelo de linguagem, um que “raciocinaria” por meio de suas respostas ao gerar texto adicional antes de fornecer uma resposta final, permitindo-lhe resolver problemas muito mais desafiadores do que seus equivalentes sem raciocínio.
Enquanto o o1 representou um grande avanço tecnológico, o GPT-5 é, acima de tudo, um produto refinado. Durante uma coletiva de imprensa, Sam Altman comparou o GPT-5 aos monitores Retina da Apple, e a analogia é apropriada, embora talvez não da forma como ele pretendia. Tal como uma tela inédita em nitidez, o GPT-5 proporcionará uma experiência de uso mais agradável e fluida. Isso não é pouca coisa, mas está muito aquém do futuro transformador da IA que Altman passou grande parte do último ano promovendo. Na coletiva, Altman chamou o GPT-5 de “um passo significativo no caminho para a AGI (Inteligência Artificial Geral)”, e talvez ele esteja certo, mas, se for, é um passo muito pequeno.
Veja a demonstração das capacidades do modelo que a OpenAI apresentou à MIT Technology Review antes de seu lançamento. Yann Dubois, líder de pós-treinamento na OpenAI, pediu ao GPT-5 que projetasse um aplicativo web para ajudar sua parceira a aprender francês, de modo que ela pudesse se comunicar mais facilmente com sua família. O modelo fez um trabalho admirável ao seguir suas instruções e criou um aplicativo atraente e fácil de usar. Mas, quando dei ao GPT-4o um prompt quase idêntico, ele produziu um aplicativo com exatamente a mesma funcionalidade. A única diferença é que não era tão esteticamente agradável.
Algumas das outras melhorias na experiência do usuário são mais significativas. Fazer com que o modelo, e não o usuário, decida se deve aplicar raciocínio a cada consulta elimina um grande ponto de fricção, especialmente para quem não acompanha de perto os avanços em LLMs.
E, segundo Altman, o GPT-5 raciocina muito mais rápido do que os modelos da série o. O fato de a OpenAI lançá-lo para usuários não pagantes sugere que ele também é mais barato para a empresa operar. Isso é algo importante: executar modelos poderosos de forma barata e rápida é um desafio complexo, e resolvê-lo é fundamental para reduzir o impacto ambiental da IA.
A OpenAI também adotou medidas para mitigar as alucinações, que têm sido uma dor de cabeça persistente. As avaliações da empresa indicam que os modelos GPT-5 têm uma probabilidade substancialmente menor de fazer afirmações incorretas do que seus predecessores, o o3 e o GPT-4o. Se esse avanço resistir ao escrutínio, poderá ajudar a abrir caminho para agentes mais confiáveis e seguros. “A alucinação pode causar problemas reais de segurança”, afirma Dawn Song, professora de ciência da computação na Universidade da Califórnia, em Berkeley. Por exemplo, um agente que invente pacotes de software pode acabar baixando código malicioso para o dispositivo de um usuário.
O GPT-5 atingiu o estado da arte em vários benchmarks, incluindo um teste de habilidades agentivas e as avaliações de programação SWE-Bench e Aider Polyglot. Mas, segundo Clémentine Fourrier, pesquisadora de IA na empresa HuggingFace, essas avaliações estão se aproximando da saturação, o que significa que os modelos atuais já atingiram um desempenho próximo ao máximo possível.
“É basicamente como avaliar o desempenho de um estudante do ensino médio em problemas de nível fundamental”, diz ela. “Se o estudante do ensino médio falhar, isso lhe diz algo, mas se tiver sucesso, não diz muito.” Fourrier afirmou que ficaria impressionada se o sistema atingisse uma pontuação de 80% ou 85% no SWE-Bench, mas ele conseguiu apenas 74,9%.
No fim das contas, a principal mensagem da OpenAI é que o GPT-5 é mais agradável de usar. “A sensação que este modelo transmite é realmente boa, e acho que as pessoas vão perceber isso, especialmente aquelas que não têm passado o tempo pensando sobre modelos”, disse Nick Turley, chefe do ChatGPT.
Só que, por si só, boas sensações não vão trazer o futuro automatizado que Altman prometeu. O raciocínio pareceu um grande passo em direção à AGI. Ainda estamos à espera do próximo.