Google e OpenAI anunciaram novos assistentes de Inteligência Artificial: ferramentas que podem conversar com você em tempo real e recuperar o raciocínio quando as interrompe, analisar o seu ambiente através de vídeo ao vivo e traduzir conversas em tempo real.
A OpenAI foi a primeira a “atacar”, no dia 13 de maio, quando estreou seu novo modelo principal, o GPT-4o. A demonstração ao vivo mostrou o assistente lendo histórias para dormir e resolvendo problemas de matemática, tudo com uma voz que soava assustadoramente como a namorada de Joaquin Phoenix, no filme Her (uma caraterística que não passou despercebida ao diretor-executivo Sam Altman).
No dia seguinte, foi a vez da Google, que anunciou as suas próprias novas ferramentas, incluindo um assistente de conversação chamado Gemini Live. Ele pode fazer muitas das mesmas coisas que o da OpenAI. A empresa revelou também que está construindo uma espécie de agente de IA “faz tudo”, que está atualmente em desenvolvimento, mas que só será lançado no final deste ano.
Em breve, você poderá explorar por conta própria e avaliar se essas ferramentas serão úteis em sua rotina, tanto quanto seus criadores esperam, ou se elas são mais como um truque de festa de ficção científica que acaba perdendo o charme.
Veja abaixo o que você precisa saber sobre como acessar essas novas ferramentas, o que delas pode ser útil e quanto vão custar.
GPT-4o da OpenAI
Do que ele é capaz: O modelo novo pode conversar com você em tempo real, com um delay de cerca de 320 milissegundos de resposta, o que, segundo a OpenAI, está no mesmo nível das conversas humanas naturais. É possível pedir para que a ferramenta interprete qualquer coisa, apenas apontando a câmera do seu smartphone, e a partir daí, fornecer assistência em tarefas como codificação ou tradução de texto. Com ele, também é possível resumir informações e gerar imagens, fontes e renderizações em 3D.
Como ter acesso a ele: A OpenAI diz que começará a implementar os recursos de texto e visão do GPT-40 na interface web, assim como no aplicativo GPT, mas ainda não definiu uma data. A empresa diz que adicionará as funções de voz nas próximas semanas, embora também ainda não tenha definido uma data exata para isso. Os desenvolvedores podem acessar os recursos de texto e visão na API agora, mas o modo de voz, inicialmente, será lançado apenas para um “pequeno grupo” de desenvolvedores.
Quanto custa: O uso do GPT-40 será gratuito, mas a OpenAI estabelecerá limites para o uso do modelo, antes que precise fazer o upgrade para um plano pago. Aqueles que aderirem a um dos planos pagos da OpenAI, que começam a partir de US$ 20 por mês, terão cinco vezes mais capacidade de uso no GPT-40.
Gemini Live do Google
O que é o Gemini Live? Este é o produto do Google que mais se assemelha ao GPT-40. É uma versão do modelo de IA da empresa com o qual você pode falar em tempo real. O Google diz que também será possível usar a ferramenta para se comunicar por vídeo ao vivo “ainda este ano”. A empresa promete que será um assistente de conversação útil para tarefas como a preparação para uma entrevista de emprego ou o ensaio de um discurso.
Como acessá-la: O Gemini Live será lançado, segundo a empresa, nos próximos meses, por meio do plano premium de IA do Google, o Gemini Advanced.
Quanto custa: O Gemini Advanced oferece um período de teste gratuito de dois meses que, depois disso, custará US$ 20 por mês.
Mas espere, o que é o Projeto Astra? O Astra é um projeto para criar um agente de IA faz-tudo, que foi demonstrado na conferência I/O do Google, mas não será lançado até o final deste ano.
As pessoas poderão usar o Astra em seus smartphones e, possivelmente, em seus computadores. Mas a empresa também está explorando outras opções, como incorporá-lo a óculos inteligentes ou outros dispositivos, segundo disse Oriol Vinyals, vice-presidente de pesquisa do Google DeepMind, à MIT Technology Review.
O que é melhor?
É difícil dizer sem ter em mãos as versões completas desses modelos. O Google exibiu o Project Astra em um vídeo sofisticado, enquanto a OpenAI optou por estrear o GPT-40 com uma demonstração ao vivo, aparentemente mais autêntica. Mas, em ambos os casos, os modelos foram solicitados a fazer coisas que os designers, provavelmente, já haviam praticado. O verdadeiro teste será quando eles forem apresentados a milhões de usuários, com demandas exclusivas.
Dito isso, se você comparar os vídeos publicados pela OpenAI com os do Google, as duas ferramentas líderes são muito semelhantes, pelo menos no que se refere às suas facilidades de uso. No geral, o GPT-40 parece estar um pouco só mais à frente no áudio, com vozes realistas, fluxo de conversação e até canto, enquanto o Project Astra apresenta recursos visuais mais avançados, como a capacidade de lembrar onde você deixou seus óculos. A decisão da OpenAI de implementar os novos recursos mais rápido, pode significar que seu produto será mais usado no início do que o do Google, que só estará totalmente disponível no final deste ano. É muito cedo para dizer qual modelo gera informações falsas com menos frequência ou cria respostas mais úteis.
Eles são seguros?
Tanto a OpenAI, quanto o Google afirmam que seus modelos foram bem testados: A OpenAI afirma que o GPT-40 foi avaliado por mais de 70 especialistas em áreas como desinformação e psicologia social, e o Google disse que o Gemini “tem as avaliações de segurança mais abrangentes de qualquer modelo de IA do Google até o momento, inclusive em relação a viés e toxicidade”.
Mas essas empresas estão construindo um futuro em que os modelos de IA pesquisam, examinam e avaliam as informações do mundo para que a gente possa fornecer uma resposta concisa às nossas perguntas. Mais ainda do que com os chatbots mais simples, é aconselhável manter o ceticismo em relação ao que dizem para nós.
—
Sobre o autor
Por James O’Donnel, repórter em inteligência artificial da MIT Technology Review, especializado em análise de promessas e riscos de tecnologias como veículos autônomos, robôs cirúrgicos e chatbots.