O Gemini 3 do Google interpreta o “clima” das respostas e vem com seu próprio agente
Inteligência artificial

O Gemini 3 do Google interpreta o “clima” das respostas e vem com seu próprio agente

O modelo recém-lançado é apresentado como sendo mais consciente de contexto do que nunca

O Google lançou o Gemini 3, uma grande atualização de seu modelo multimodal principal. A empresa diz que o novo modelo é melhor em raciocínio, tem capacidades multimodais mais fluidas (a habilidade de operar entre voz, texto ou imagens) e funcionará como um agente.

Mini Banner - Assine a MIT Technology Review

O modelo anterior, o Gemini 2.5, já oferece suporte à entrada multimodal. Usuários podem fornecer imagens, escrita manual ou voz, mas ele geralmente exige instruções explícitas sobre o formato desejado pelo usuário como retorno, e, de modo padrão, responde em texto simples, independentemente disso.

O Gemini 3, no entanto, introduz o que o Google chama de “interfaces generativas”, que permitem ao modelo fazer suas próprias escolhas sobre qual tipo de saída se ajusta melhor ao prompt, criando layouts visuais e visualizações dinâmicas por conta própria, em vez de retornar um bloco de texto.

Peça recomendações de viagem e ele pode gerar uma interface semelhante a um site dentro do aplicativo, completo, com módulos, imagens e prompts de acompanhamento como “Quantos dias você vai viajar?”, ou “Que tipo de atividades você gosta?”. Ele também apresenta opções clicáveis com base no que você pode querer em seguida.

Quando solicitado a explicar um conceito, o Gemini 3 pode esboçar um diagrama ou gerar uma animação simples por conta própria, caso considere que um recurso visual é mais eficaz.

“Layouts visuais geram uma visualização imersiva, no estilo de uma revista completa, com fotos e módulos”, diz Josh Woodward, vice-presidente do Google Labs, Gemini e AI Studio. “Esses elementos não apenas têm boa aparência, mas convidam sua contribuição para personalizar ainda mais os resultados.”

Com o Gemini 3, o Google também está introduzindo o Gemini Agent, um recurso experimental projetado para lidar com tarefas de múltiplas etapas dentro do próprio aplicativo em que estiver inserido. O agente pode se conectar a serviços Google como o Calendário, o Gmail e o “Lembretes”. Uma vez que recebe o acesso, ele pode executar tarefas como organizar uma caixa de entrada ou gerenciar agendas.

Semelhante a outros agentes, ele divide tarefas em etapas distintas, exibe seu progresso em tempo real e pausa para obter aprovação do usuário antes de continuar. O Google descreve o recurso como um passo em direção a “um agente verdadeiramente generalista”. Ele se tornou disponível na web para assinantes do Google AI Ultra nos EUA desde novembro.

A abordagem geral pode parecer muito com “vibe coding”, em que os usuários descrevem um objetivo final em linguagem simples e deixam que o modelo monte a interface ou o código necessário para chegar lá.

A atualização também integra o Gemini de maneira mais profunda aos produtos existentes do Google. Na Busca, um grupo limitado de assinantes do Google AI Pro e Ultra agora pode alternar para o Gemini 3 Pro, a variação de raciocínio do novo modelo, para receber resumos de IA mais profundos e completos que se baseiam no raciocínio do modelo em vez do modo de IA existente.

Para compras, o Gemini agora irá extrair informações do Shopping Graph do Google, que a empresa afirma conter mais de 50 bilhões de listagens de produtos, para gerar seus próprios guias de recomendação. Os usuários só precisam fazer uma pergunta relacionada a compras ou pesquisar uma frase sobre o tema e o modelo monta uma peça interativa de recomendação de produtos no estilo do Wirecutter, completa, com preços e detalhes dos produtos, sem redirecionar para um site externo.

Para desenvolvedores, o Google também está avançando na geração de software a partir de um único prompt. A empresa apresentou o Google Antigravity, uma plataforma de desenvolvimento que funciona como um espaço tudo-em-um onde código, ferramentas e fluxos de trabalho podem ser criados e gerenciados a partir de um único prompt.

Derek Nee, CEO da Flowith, uma aplicação de IA agentiva, disse à MIT Technology Review que o Gemini 3 Pro resolve várias lacunas de modelos anteriores. As melhorias incluem entendimento visual mais robusto, melhor geração de código e melhor desempenho em tarefas longas, recursos que ele considera essenciais para desenvolvedores de apps e agentes de IA.

“Dadas as suas vantagens de velocidade e custo, estamos integrando o novo modelo ao nosso produto”, afirma. “Estamos otimistas quanto ao seu potencial, mas precisamos de testes mais aprofundados para entender até onde ele pode chegar.”

Caiwei Chen é repórter especializada em assuntos sobre a China na MIT Technology Review, onde cobre o papel do país no cenário global de tecnologia. Já escreveu sobre tecnologia, internet e cultura para veículos como Wired, Protocol, South China Morning Post e Rest of World. Também integrou a newsletter Chaoyang Trap e hoje é colaboradora regular do Pixel Perfect, podcast em chinês sobre tecnologia e cultura. Atualmente, vive no Brooklyn, em Nova York.

Último vídeo

Nossos tópicos