IA multimodal: muito além do chat - MIT Technology Review

Banner indicando a posição do botão de download do artigo em formato pdf

Conversar com um chatbot de IA é coisa de 2022. As novas ferramentas de IA mais quentes aproveitam os modelos multimodais, que podem lidar com várias coisas ao mesmo tempo, como imagens, áudio e texto.

Exemplo A: o NotebookLM do Google. O NotebookLM é uma ferramenta de pesquisa que a empresa lançou sem muito alarde há um ano. Há algumas semanas, o Google adicionou uma ferramenta de podcast de IA chamada Audio Overview ao NotebookLM, permitindo que os usuários criem podcasts sobre qualquer tema. Basta adicionar um link para, por exemplo, seu perfil do LinkedIn, e os apresentadores de podcast da IA irão aumentar seu ego por nove minutos. O recurso se tornou um sucesso viral inesperado.

O conteúdo gerado por IA multimodal também melhorou muito em pouco tempo. Em setembro de 2022, cobri o primeiro modelo de texto-para-vídeo da Meta, o Make-A-Video. Comparado com a tecnologia de hoje, esses vídeos parecem desajeitados e toscos. A Meta acaba de anunciar seu concorrente do Sora da OpenAI, chamado Movie Gen. A ferramenta permite que os usuários usem prompts de texto para criar vídeos e sons personalizados, editar vídeos existentes e transformar imagens em vídeos.

A maneira como interagimos com os sistemas de IA também está mudando, tornando-se menos dependente de texto. A nova interface Canvas da OpenAI permite que os usuários colaborem em projetos com o ChatGPT. Em vez de depender de uma janela de chat tradicional, que exige várias rodadas de prompts e regeneração de texto para obter o resultado desejado, o Canvas permite que as pessoas selecionem trechos de texto ou código para editar.

Até a busca está recebendo uma atualização multimodal. Além de inserir anúncios em visões gerais da IA, o Google lançou um novo recurso em que os usuários podem fazer upload de um vídeo e usar sua voz para buscar informações. Em uma demonstração no Google I/O, a empresa mostrou como você pode abrir o aplicativo Google Lens, gravar um vídeo de peixes nadando em um aquário e fazer uma pergunta sobre eles. O modelo Gemini do Google então busca na web e oferece uma resposta na forma de um resumo de IA do Google.

O que une esses recursos é uma interface mais interativa e personalizável, além da capacidade de aplicar ferramentas de IA a diferentes tipos de materiais. O NotebookLM foi o primeiro produto de IA em algum tempo que me trouxe encanto e surpresa, em parte por quão diferentes, realistas e inesperadas eram as vozes da IA. Mas o fato de que o Audio Overview do NotebookLM se tornou um sucesso, apesar de ser um recurso secundário dentro de um produto maior, só mostra que os desenvolvedores de IA não sabem realmente o que estão fazendo. Difícil de acreditar agora, mas o próprio ChatGPT foi um sucesso inesperado para a OpenAI.

Estamos há alguns anos no boom da IA generativa de bilhões de dólares. O enorme investimento em IA contribuiu para a rápida melhoria na qualidade do conteúdo resultante. Mas ainda não vimos o “aplicativo matador”, e essas novas aplicações multimodais são resultados da imensa pressão que as empresas de IA estão enfrentando para gerar lucro e resultados. As empresas de tecnologia estão lançando diferentes ferramentas de IA ao público e vendo o que “cola”.

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos