“Então, hoje vamos mergulhar fundo em algumas tecnologias de ponta”, diz uma voz masculina americana, descontraída. Mas essa voz não pertence a um humano. Ela vem da nova ferramenta de podcast de IA do Google, chamada Audio Overview, que se tornou um sucesso viral inesperado.
O recurso de podcast foi lançado em meados de setembro como parte do NotebookLM, um assistente de pesquisa alimentado por IA, que já tem um ano de existência. O NotebookLM, que é alimentado pelo modelo Gemini 1.5 do Google, permite que as pessoas façam upload de conteúdos como links, vídeos, PDFs e textos. Depois, podem fazer perguntas ao sistema sobre o conteúdo e ele oferece resumos curtos.
A ferramenta gera um podcast chamado Deep Dive, que traz uma voz masculina e outra feminina discutindo o conteúdo que você carregou. As vozes são surpreendentemente realistas—os episódios são recheados de frases que soam humanas, como “Cara”, “Uau”, “Ah, certo” e “Espera, deixa eu ver se entendi direito”. Os “apresentadores” até se interrompem mutuamente.
Para testar, copiei todas as histórias da edição de 125 anos da MIT Technology Review no NotebookLM e pedi ao sistema para gerar um podcast de 10 minutos com o resultado. O sistema escolheu algumas histórias para focar, e os apresentadores de IA fizeram um ótimo trabalho em transmitir a essência geral e de alto nível do que era a edição.
O sistema de IA é projetado para criar “mágica em troca de um pouco de conteúdo”, disse Raiza Martin, líder de produto do NotebookLM, na rede X. O modelo de voz foi feito para criar áudios emotivos e envolventes, transmitidos em um “tom animado e super interessado”, disse Martin.
Originalmente comercializado como uma ferramenta de estudo, o NotebookLM ganhou vida própria entre os usuários. A empresa agora está trabalhando em adicionar mais opções de personalização, como mudar o tempo de duração, formato, vozes e idiomas, disse Martin. Atualmente, ele gera podcasts apenas em inglês, mas alguns usuários no Reddit conseguiram fazer a ferramenta criar áudios em francês e húngaro.
Sim, é incrível—quase encantador, até—mas também não está imune aos problemas que afligem a IA generativa, como alucinações e vieses.
Aqui estão algumas das principais formas pelas quais as pessoas estão usando o NotebookLM até agora.
Podcasts sob demanda
Andrej Karpathy, membro da equipe fundadora da OpenAI e ex-diretor de IA da Tesla, disse na rede X que Deep Dive é agora seu podcast favorito. Karpathy criou sua própria série de podcasts de IA chamada Histories of Mysteries, que tem como objetivo “desvendar os mistérios mais intrigantes da história”. Ele afirma que pesquisou os temas usando o ChatGPT, Claude e o Google, e usou um link da Wikipedia para cada tema como material de origem no NotebookLM para gerar o áudio. Depois, usou o NotebookLM para gerar as descrições dos episódios. Ele afirma que toda a série de podcasts levou duas horas para ser criada.
Quanto mais eu ouço, mais sinto que estou me tornando amigo dos apresentadores e acho que esta é a primeira vez que realmente gostei visceralmente de uma IA”, ele escreveu. “Duas IAs! Elas são divertidas, envolventes, reflexivas, de mente aberta, curiosas.”
Guias de estudo
A ferramenta se destaca quando recebe material de origem complexo, conseguindo descrevê-lo de uma forma acessível. Allie K. Miller, uma consultora de IA para startups, usou a ferramenta para criar um guia de estudo e um podcast resumo de O Grande Gatsby, de F. Scott Fitzgerald.
O pesquisador de aprendizado de máquina Aaditya Ura alimentou o NotebookLM com a base de código da arquitetura Llama-3 da Meta. Ele então usou outra ferramenta de IA para encontrar imagens que correspondessem à transcrição, criando um vídeo educacional.
Mohit Shridhar, cientista de pesquisa especializado em manipulação robótica, inseriu um artigo recente que havia escrito sobre o uso de modelos de IA generativa para treinar robôs no NotebookLM.
“É realmente muito criativo. Ele apresentou várias analogias interessantes”, diz ele. “Comparou a primeira parte do meu artigo a um artista criando um esboço, e a segunda parte a um coreógrafo descobrindo como alcançar as posições.”
Resumos de eventos
Alex Volkov, um podcaster de IA, usou o NotebookLM para criar um episódio do Deep Dive resumindo os anúncios feitos na conferência global de desenvolvedores da OpenAI, o Dev Day.
Promotores pessoais
Os resultados do Deep Dive podem ser imprevisíveis, diz Martin. Por exemplo, Thomas Wolf, cofundador e diretor científico da Hugging Face, testou o modelo de IA com seu currículo e recebeu oito minutos de “cumprimentos profundos e realistas por sua vida e realizações, vindos de uma dupla de especialistas em podcasts”.
Pura bobeira
Em um clipe viral, alguém conseguiu levar as duas vozes a uma espiral existencial quando elas “perceberam” que não eram humanos, mas sistemas de IA. O vídeo é hilário.
A ferramenta também é boa para algumas risadas. Exemplo A: Alguém simplesmente alimentou o sistema com as palavras “cocô” e “pum” como material de origem e obteve mais de nove minutos de duas vozes de IA analisando o que isso poderia significar.
Os problemas
O NotebookLM criou podcasts de IA incrivelmente realistas e envolventes. Mas eu queria ver como ele se sairia com conteúdo tóxico e a questão da precisão.
Vamos começar com as alucinações. Em uma versão de podcast de IA sobre uma história que escrevi sobre deepfakes hiper-realistas, os apresentadores de IA disseram que uma jornalista chamada “Jess Mars” escreveu a história. Na verdade, essa era uma personagem gerada por IA a partir de uma história que eu precisei ler em voz alta para gravar dados para meu avatar de IA.
Isso me fez pensar em quais outros erros podem ter surgido nos podcasts gerados pela IA. Os humanos já têm uma tendência a confiar no que os programas de computador dizem, mesmo quando estão errados. Vejo esse problema se amplificando quando declarações falsas são feitas por uma voz amigável e autoritária, o que pode fazer com que informações erradas se proliferem.
Em seguida, eu queria testar a moderação de conteúdo da ferramenta. Adicionei alguns conteúdos tóxicos, como estereótipos racistas, ao material. O modelo não detectou.
Também colei um trecho de Mein Kampf, de Adolf Hitler, no NotebookLM. Para minha surpresa, o modelo começou a gerar áudio com base no texto. Apesar de estar programado para ser extremamente entusiástico sobre os tópicos, as vozes de IA expressaram um claro desgosto e desconforto com o conteúdo, além de adicionarem muito contexto para destacar o quão problemático ele era. Que alívio.
Também inseri no NotebookLM manifestos políticos de Kamala Harris e Donald Trump.
Os apresentadores foram muito mais entusiasmados com a plataforma eleitoral de Harris, chamando o título de “atraente” e dizendo que a abordagem era uma boa forma de enquadrar as questões. Por exemplo, os apresentadores de IA apoiaram a política energética de Harris. “Sinceramente, esse é o tipo de coisa que as pessoas realmente podem apoiar — não apenas uma política abstrata, mas algo que realmente impacta o dia a dia delas,” disse a apresentadora.
Manifesto de Harris
No caso de Trump, os apresentadores de IA foram mais céticos. Eles apontaram repetidamente inconsistências nas propostas políticas, chamaram a linguagem de “intensa”, consideraram certas propostas como “confusas” e disseram que o texto atendia à base de eleitores de Trump. Eles também questionaram se a política externa de Trump poderia levar a mais instabilidade política.
Manifesto de Trump
Em comunicado, um porta-voz do Google disse: “O NotebookLM é uma ferramenta de compreensão, e os Audio Overviews são gerados com base nas fontes que você carrega. Nossos produtos e plataformas não são projetados para favorecer nenhum candidato ou ponto de vista político específico.”
Como experimentar você mesmo
- Acesse o NotebookLM e crie um novo caderno.
- Você precisa primeiro adicionar uma fonte. Pode ser um documento PDF, um link público do YouTube, um arquivo MP3, um arquivo do Google Docs ou um link para um site, ou você pode colar o texto diretamente.
- Um pop-up chamado “Guia do Caderno” deve aparecer. Se não, ele está no canto superior direito, ao lado do chat. Isso exibirá um resumo curto gerado pela IA do seu material de origem e perguntas sugeridas que você pode fazer ao chatbot de IA sobre ele.
- O recurso Audio Overview está no canto superior direito. Clique em “Gerar”. Isso deve levar alguns minutos.
- Quando estiver pronto, você pode fazer o download ou compartilhar um link.
Rhiannon Williams contribuiu com esta reportagem.