Como a busca do ChatGPT abre caminho para agentes de IA
Inteligência artificial

Como a busca do ChatGPT abre caminho para agentes de IA

O que precisa ser feito para que assistentes de IA sejam realmente úteis.

Banner indicando a posição do botão de download do artigo em formato pdf

Olivier Godement, chefe de produto da plataforma da OpenAI, e Romain Huet, chefe de experiência do desenvolvedor, estão em uma turnê mundial. Na semana passada, conversei com os dois em Londres, antes do DevDay, a conferência anual de desenvolvedores da empresa. Este foi o primeiro DevDay da OpenAI fora de São Francisco, e agora a dupla está a caminho de Cingapura.

Nas últimas semanas, a OpenAI anunciou novidades na sua plataforma Realtime API em Londres, permitindo que desenvolvedores integrem recursos de voz em suas aplicações. A empresa também está lançando novas vozes e uma função que permite gerar prompts, o que tornará mais ágil o desenvolvimento de aplicativos e assistentes de voz. Para o consumidor final, a OpenAI apresentou o ChatGPT search, que permite que os usuários realizem buscas na internet através do chatbot. Leia mais aqui.

Essas inovações abrem caminho para o próximo grande passo na IA: agentes. Esses agentes são assistentes de IA que conseguem realizar cadeias de tarefas complexas, como reservar voos. (Confira aqui meu artigo explicando o conceito de agentes.)

“Em poucos anos, cada pessoa e empresa terá um agente que o conhece extremamente bem e entende suas preferências”, afirma Godement. Esse agente teria acesso a e-mails, aplicativos e agendas, atuando como um “chefe de gabinete”, interagindo com várias ferramentas e até trabalhando em projetos de longo prazo, como redigir um artigo sobre um tema específico, ele explica.

A estratégia da OpenAI é tanto desenvolver seus próprios agentes quanto permitir que desenvolvedores utilizem seu software para criar agentes personalizados, segundo Godement. Ele acredita que a voz terá um papel crucial no formato e na interação com esses agentes.

“No momento, a maioria dos aplicativos é baseada em chat… o que é interessante, mas não adequado para todos os casos de uso. Em alguns cenários, não estamos digitando nem olhando para a tela, e nesses casos a voz é uma modalidade muito mais adequada,” ele acrescenta.

Contudo, existem dois desafios principais a serem superados para que os agentes se tornem realidade, diz Godement.

O primeiro é o raciocínio. Para que os agentes de IA sejam confiáveis em tarefas complexas, a OpenAI introduziu a funcionalidade de “raciocínio” em seu modelo o1 no mês passado. Usando aprendizado por reforço, o modelo aprende a processar informações por meio de uma “cadeia de pensamento”. Ao dar mais tempo para o modelo gerar respostas, ele consegue identificar e corrigir erros, dividir problemas em partes menores e testar diferentes abordagens para responder questões, explica Godement.

Mini Banner - Assine a MIT Technology Review

No entanto, as alegações da OpenAI sobre raciocínio devem ser encaradas com cautela, adverte Chirag Shah, professor de ciência da computação na Universidade de Washington. Os modelos de linguagem não demonstram um raciocínio verdadeiro; provavelmente eles apenas simularam algo que se parece com lógica a partir dos dados com os quais foram treinados.

“Esses modelos parecem ser incríveis no raciocínio, mas é como se fossem muito bons em fingir, e basta analisar um pouco mais para ver suas falhas,” diz ele.

Godement reconhece que ainda há muito trabalho a ser feito. A curto prazo, os modelos de IA, como o o1, precisam ser mais confiáveis, rápidos e econômicos. A longo prazo, a empresa pretende aplicar a técnica de cadeia de pensamento em um escopo mais amplo, indo além das áreas de ciência, programação e matemática para campos como direito, contabilidade e economia.

O segundo item na lista de tarefas é a capacidade de conectar diferentes ferramentas. Se os modelos de IA dependerem exclusivamente de seus dados de treinamento, suas habilidades ficarão limitadas. Eles precisam navegar pela web e buscar informações atualizadas. A função de busca do ChatGPT é um dos novos recursos que agora podem fazer isso.

Essas ferramentas não devem apenas buscar informações, mas também agir no mundo real. O concorrente Anthropic anunciou uma nova funcionalidade onde seu chatbot Claude consegue “usar” um computador, interagindo com a interface para, por exemplo, clicar em itens. Essa função será essencial para que os agentes possam executar tarefas como reservar passagens aéreas. Godement comenta que o o1 consegue “meio que” utilizar ferramentas, ainda que de forma pouco confiável, e que as pesquisas sobre o uso de ferramentas são um “avanço promissor”.

No próximo ano, Godement prevê um aumento no uso de IA para suporte ao cliente e outras tarefas assistenciais. Porém, ele admite que é difícil prever como as pessoas adotarão a tecnologia da OpenAI.

“Francamente, olhando para trás a cada ano, me surpreendo com os casos de uso que surgem e que eu nem imaginava,” afirma ele. “Espero que vejamos várias surpresas que nenhum de nós poderia prever.”

Último vídeo

Nossos tópicos