GPT-4o da OpenAI permite interações por voz ou vídeo no mesmo modelo
Inteligência artificial

GPT-4o da OpenAI permite interações por voz ou vídeo no mesmo modelo

O novo “omnimodel” gratuito da empresa parece uma versão turbinada de assistentes como Siri ou Alexa.

Banner indicando a posição do botão de download do artigo em formato pdf

A OpenAI acaba de lançar o GPT-4o, um novo tipo de modelo de IA com o qual você pode se comunicar em tempo real por meio de conversas de voz ao vivo, transmissões de vídeo do seu celular e texto. Disponibilizado gratuitamente para todos — embora os usuários dos planos pagos possam fazer mais solicitações —, o modelo é acessível tanto pelo aplicativo GPT quanto pela interface web.

A CTO da OpenAI, Mira Murati, liderou a demonstração ao vivo do novo lançamento um dia antes de o Google revelar suas próprias inovações em inteligência artificial na sua conferência principal, o I/O, na terça-feira, 14 de maio.

O GPT-4 já oferecia capacidades semelhantes, permitindo aos usuários várias formas de interagir com os modelos de IA da OpenAI. No entanto, essas interações estavam separadas em diferentes sistemas, resultando em tempos de resposta mais longos e, presumivelmente, custos computacionais mais altos. O GPT-4o agora unificou essas capacidades em um único modelo, que Murati chamou de “omnimodelo”. Isso significa respostas mais rápidas e transições mais suaves entre tarefas, segundo ela.

O resultado, segundo a demonstração da empresa, é um assistente conversacional similar ao Siri ou Alexa, mas capaz de lidar com prompts de comando muito mais complexos.

“Estamos olhando para o futuro da interação entre nós e as máquinas”, disse Murati na demonstração. “Achamos que o GPT-4o realmente está mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural.”

Mini Banner - Assine a MIT Technology Review

Barret Zoph e Mark Chen, ambos pesquisadores da OpenAI, apresentaram várias aplicações para o novo modelo. A mais impressionante foi sua habilidade com conversas ao vivo: você podia interromper o modelo durante suas respostas, e ele parava, ouvia e ajustava o curso da interação.

A OpenAI também mostrou a capacidade de mudar o tom do modelo. Chen pediu ao modelo para ler uma história de ninar “sobre robôs e amor”, rapidamente exigindo uma voz mais dramática. O modelo ficou progressivamente mais teatral até que Murati pediu que ele mudasse rapidamente para uma voz de robô convincente (o que ele fez com excelência). Embora houvesse algumas pausas curtas durante a conversa enquanto o modelo raciocinava sobre o que dizer a seguir, destacou-se como uma conversa de IA surpreendentemente natural.

O modelo também pode raciocinar sobre problemas visuais em tempo real. Usando seu celular, Zoph filmou-se escrevendo uma equação de álgebra (3x + 1 = 4) em uma folha de papel, com o GPT-4o acompanhando. Ele instruiu o modelo a não fornecer respostas, mas sim a orientá-lo como um professor faria.

“O primeiro passo é colocar todos os termos com x de um lado”, disse o modelo em um tom amigável. “Então, o que você acha que devemos fazer com esse +1?”

Como as gerações anteriores do GPT (sigla em inglês para Generative Pre-trained Transformer, ou Transformador Pré treinado Generativo, na tradução em português), o GPT-4o armazena registros das interações dos usuários com ele, o que significa que o modelo “tem um senso de continuidade em todas as suas conversas”, de acordo com Murati. Outros novos destaques incluem tradução ao vivo, a habilidade de pesquisar nas conversas anteriores do usuário com o modelo e a capacidade de buscar informações em tempo real.

Banner Assine a MIT Technology Review Brasil - Escolha seu plano

Como é comum em demonstrações ao vivo, houve falhas e glitches. A voz do GPT-4o pode soar estranha durante a conversa e ele comentou sobre a roupa de um dos apresentadores, mesmo sem ser solicitado. Mas recuperou-se bem quando os demonstradores disseram ao modelo que ele havia cometido um erro. Ele parece ser capaz de responder de forma útil e rápida em vários formatos que outros modelos ainda não unificaram de maneira eficaz.

Anteriormente, muitos dos recursos mais poderosos da OpenAI, como raciocinar sobre imagens e vídeos, estavam atrás de um paywall. O GPT-4o marca a primeira vez em que esses recursos estão abertos ao público em geral, embora ainda não esteja claro quantas interações é possível ter com o modelo antes de ser cobrado. A OpenAI diz que assinantes pagantes “continuarão a ter até cinco vezes os limites de capacidade dos nossos usuários gratuitos.”

Por , Repórter de inteligência artificial da MIT Technology Review, com foco nas promessas e riscos de tecnologias como veículos autônomos, robôs cirúrgicos e chatbots. 

Último vídeo

Nossos tópicos