Como é que os modelos de IA geram vídeos?
Inteligência artificial

Como é que os modelos de IA geram vídeos?

Com ferramentas poderosas de geração de vídeo agora nas mãos de mais pessoas do que nunca, vamos analisar como funcionam.

Foi um grande ano para a geração de vídeo. Nos últimos meses, a OpenAI tornou público o Sora, o Google DeepMind lançou o Veo 3 e a startup de vídeo Runway apresentou o Gen-4. Todos conseguem produzir clipes de vídeo que são (quase) impossíveis de distinguir de filmagens reais ou de animação em CGI. Este ano também marcou a estreia da Netflix de um efeito visual feito por IA em sua série The Eternaut, a primeira vez que a geração de vídeo foi usada para produzir televisão de grande audiência.

Mini Banner - Assine a MIT Technology Review

É verdade que os clipes que aparecem em rolos de demonstração são escolhidos a dedo para mostrar os modelos de uma empresa no auge de seu desempenho. Mas, com a tecnologia agora nas mãos de mais usuários do que nunca, Sora e Veo 3 estão disponíveis nos aplicativos ChatGPT e Gemini para assinantes pagantes, até o cineasta mais casual pode hoje produzir algo notável.

O lado negativo é que os criadores estão competindo com material de baixa qualidade feito por IA, e os feeds das redes sociais estão se enchendo de imagens falsas imitando noticiários. A geração de vídeo também consome uma enorme quantidade de energia, muitas vezes mais do que a geração de texto ou de imagens.

Com vídeos gerados por IA em todos os lugares, vamos reservar um momento para falar sobre a tecnologia que os faz funcionar.

Como gerar um vídeo?

Vamos supor que você seja um usuário casual. Hoje existe uma variedade de ferramentas avançadas que permitem a criadores profissionais de vídeo inserir modelos de geração de vídeo em seus fluxos de trabalho. Mas a maioria das pessoas usará essa tecnologia em um aplicativo ou por meio de um site. Você já conhece o processo: “Ei, Gemini, faça um vídeo de um unicórnio comendo espaguete. Agora faça o chifre dele decolar como um foguete.” O que você recebe de volta pode ser bom ou ruim, e normalmente será preciso pedir ao modelo para tentar outra vez, ou dez, antes de obter algo mais ou menos próximo do que você queria.

Então, o que está acontecendo por trás dos bastidores? Por que os resultados são incertos — e por que isso consome tanta energia? A nova geração de modelos de geração de vídeo é conhecida como latent diffusion transformers. Sim, é um nome complicado. Vamos destrinchar cada parte, começando pela difusão.

O que é um modelo de difusão?

Imagine pegar uma imagem e adicionar uma dispersão aleatória de pixels a ela. Pegue essa imagem cheia de pixels e adicione mais uma vez, e depois outra. Faça isso vezes suficientes e você terá transformado a imagem inicial em um amontoado aleatório de pixels, como estática em uma TV antiga.

Um modelo de difusão é uma rede neural treinada para reverter esse processo, transformando estática aleatória em imagens. Durante o treinamento, ele é exposto a milhões de imagens em vários estágios de pixelização. Ele aprende como essas imagens mudam cada vez que novos pixels são adicionados e, assim, como desfazer essas mudanças.

O resultado é que, quando você pede a um modelo de difusão para gerar uma imagem, ele começa com um amontoado aleatório de pixels e, passo a passo, transforma esse caos em uma imagem mais ou menos semelhante às imagens em seu conjunto de treinamento.

Mas você não quer qualquer imagem, você quer a imagem que especificou, geralmente com um comando de texto. E é por isso que o modelo de difusão é combinado com um segundo modelo, como um grande modelo de linguagem (LLM) treinado para relacionar imagens a descrições em texto, que guia cada etapa do processo de limpeza, direcionando o modelo de difusão para imagens que o grande modelo de linguagem considera uma boa correspondência ao comando.

Um parêntese: esse LLM não tira do nada as ligações entre texto e imagens. A maioria dos modelos de texto para imagem e de texto para vídeo de hoje é treinada em grandes conjuntos de dados que contêm bilhões de pares de texto e imagens ou de texto e vídeo coletados da internet (uma prática que desagrada muitos criadores). Isso significa que o que você recebe desses modelos é uma destilação do mundo tal como é representado online, distorcido por preconceitos (e pornografia).

É mais fácil imaginar os modelos de difusão funcionando com imagens. Mas a técnica pode ser usada com muitos tipos de dados, incluindo áudio e vídeo. Para gerar clipes de filme, um modelo de difusão precisa limpar sequências de imagens, os quadros consecutivos de um vídeo, em vez de apenas uma imagem.

O que é um modelo de difusão latente?

Tudo isso exige uma quantidade enorme de poder computacional (leia-se: energia). É por isso que a maioria dos modelos de difusão usados para geração de vídeo recorre a uma técnica chamada difusão latente. Em vez de processar dados brutos, os milhões de pixels em cada quadro de vídeo, o modelo trabalha no que é conhecido como espaço latente, no qual os quadros de vídeo (e o comando de texto) são comprimidos em um código matemático que captura apenas as características essenciais dos dados e descarta o restante.

Algo semelhante acontece sempre que você transmite um vídeo pela internet: um vídeo é enviado de um servidor para a sua tela em formato comprimido para chegar até você mais rápido e, quando chega, o seu computador ou TV o converte de volta em um vídeo assistível.

E assim, a etapa final é descomprimir o que o processo de difusão latente produziu. Uma vez que os quadros comprimidos de estática aleatória tenham sido transformados em quadros comprimidos de um vídeo que o guia do LLM considere uma boa correspondência para o comando do usuário, o vídeo comprimido é convertido em algo que você pode assistir.

Com a difusão latente, o processo de difusão funciona mais ou menos da mesma forma que faria para uma imagem. A diferença é que os quadros pixelizados do vídeo agora são codificações matemáticas desses quadros em vez dos próprios quadros. Isso torna a difusão latente muito mais eficiente do que um modelo de difusão típico. (Ainda assim, a geração de vídeo consome mais energia do que a geração de imagens ou de texto. Há simplesmente uma quantidade impressionante de computação envolvida.)

O que é um transformer de difusão latente?

Ainda está comigo? Falta mais uma peça do quebra-cabeça, e é como garantir que o processo de difusão produza uma sequência de quadros consistente, mantendo objetos, iluminação e assim por diante de um quadro para o outro. A OpenAI fez isso com o Sora ao combinar seu modelo de difusão com outro tipo de modelo chamado transformer. Isso agora se tornou padrão na geração de vídeo.

Os transformers são excelentes em processar longas sequências de dados, como palavras. Foi isso que os tornou o ingrediente especial dentro de grandes modelos de linguagem como o GPT-5 da OpenAI e o Gemini da Google DeepMind, que conseguem gerar longas sequências de palavras que fazem sentido, mantendo a consistência ao longo de muitas dezenas de frases.

Mas os vídeos não são feitos de palavras. Em vez disso, os vídeos são cortados em blocos que podem ser tratados como se fossem. A abordagem que a OpenAI desenvolveu foi fatiar os vídeos tanto no espaço quanto no tempo. “É como se você tivesse uma pilha de todos os quadros de vídeo e cortasse pequenos cubos dela”, diz Tim Brooks, pesquisador principal do Sora.

Usar transformers junto com modelos de difusão traz várias vantagens. Como eles são projetados para processar sequências de dados, os transformers também ajudam o modelo de difusão a manter a consistência entre os quadros à medida que os gera. Isso torna possível produzir vídeos em que os objetos não aparecem e desaparecem de uma cena para outra, por exemplo.

E como os vídeos são fatiados, seu tamanho e orientação não importam. Isso significa que a nova geração de modelos de vídeo pode ser treinada com uma ampla variedade de vídeos de exemplo, desde curtos clipes verticais gravados com um celular até filmes cinematográficos em tela larga. A maior diversidade de dados de treinamento tornou a geração de vídeo muito melhor do que era há apenas dois anos. Também significa que agora os modelos de geração de vídeo podem ser solicitados a produzir vídeos em diversos formatos.

E o áudio?

Um grande avanço com o Veo 3 é que ele gera vídeo com áudio, desde diálogos sincronizados com os lábios até efeitos sonoros e ruídos de fundo. Essa é uma novidade para os modelos de geração de vídeo. Como afirmou Demis Hassabis, CEO do Google DeepMind, no Google I/O deste ano: “Estamos emergindo da era silenciosa da geração de vídeo.”

O desafio foi encontrar uma forma de alinhar dados de vídeo e áudio para que o processo de difusão funcionasse em ambos ao mesmo tempo. A inovação do Google DeepMind foi uma nova maneira de comprimir áudio e vídeo em um único conjunto de dados dentro do modelo de difusão. Quando o Veo 3 gera um vídeo, seu modelo de difusão produz áudio e vídeo juntos em um processo sincronizado, garantindo que som e imagens fiquem alinhados.

Você disse que modelos de difusão podem gerar diferentes tipos de dados. É assim que os LLMs também funcionam?

Não, ou pelo menos ainda não. Modelos de difusão são usados com mais frequência para gerar imagens, vídeos e áudios. Grandes modelos de linguagem, que geram texto (incluindo código de computador), são construídos usando transformers. Mas as linhas estão começando a se confundir. Já vimos como transformers agora estão sendo combinados com modelos de difusão para gerar vídeos. E neste verão o Google DeepMind revelou que estava desenvolvendo um grande modelo de linguagem experimental que usava um modelo de difusão em vez de um transformer para gerar texto.

É aqui que as coisas começam a ficar confusas: embora a geração de vídeo (que usa modelos de difusão) consuma muita energia, os modelos de difusão em si são, na verdade, mais eficientes do que os transformers. Assim, ao usar um modelo de difusão em vez de um transformer para gerar texto, o novo LLM do Google DeepMind pode ser muito mais eficiente do que os LLMs existentes. Espere ver mais avanços com modelos de difusão num futuro próximo!

Último vídeo

Nossos tópicos