Como três cineastas criaram os mais recentes e impressionantes vídeos do Sora
Inteligência artificial

Como três cineastas criaram os mais recentes e impressionantes vídeos do Sora

A OpenAI lançou uma nova série de vídeos feitos com seu gerador de texto para vídeo. Veja como eles foram feitos.

Alguns cineastas fizeram um teste com o Sora. Os resultados, que a OpenAI publicou no final de março, são surpreendentes. Os curtas-metragens são um grande avanço em relação aos vídeos de demonstração escolhidos a dedo que a OpenAI usou para apresentar seu novo modelo generativo há apenas seis semanas. Veja como três dos cineastas fizeram isso.

“Air Head”, do Shy Kids

Shy Kids é uma banda pop e um coletivo de cinema com sede em Toronto que descreve seu estilo como “punk-rock Pixar”. O grupo já fez experiências com tecnologia de vídeo generativa antes. No ano passado, fez um videoclipe para uma de suas músicas usando uma ferramenta de código aberto chamada Stable Warpfusion. É legal, mas de baixa resolução e com falhas. O filme feito com a Sora, chamado “Air Head”, poderia se passar por uma filmagem real — se não tivesse um homem com um balão no lugar do rosto.

Um problema com a maioria das ferramentas de vídeo generativas é que é difícil manter a consistência entre os quadros. Quando a OpenAI pediu à Shy Kids que experimentasse o Sora, a banda quis ver até onde poderia ir. “Pensamos que seria um experimento divertido e interessante: será que conseguiríamos criar um personagem consistente?”, diz Walter Woodman, membro da Shy Kids. “Achamos que foi muito bem-sucedido.”

Os modelos generativos também podem ter dificuldades com detalhes anatômicos, como mãos e rostos. Mas no vídeo há uma cena que mostra um vagão de trem cheio de passageiros e os rostos são quase perfeitos. “É impressionante o que ele consegue fazer”, diz Woodman. “Aqueles rostos no trem eram todos de Sora.”

O problema do vídeo generativo com rostos e mãos foi resolvido? Não exatamente. Ainda temos vislumbres de partes do corpo deformadas. E o texto ainda é um problema (em outro vídeo, da agência de criação Native Foreign, vemos uma oficina de conserto de bicicletas com a inscrição “Biycle Repaich”). Mas tudo em “Air Head” é resultado bruto da Sora. Depois de editar vários clipes diferentes produzidos com a ferramenta, a Shy Kids fez uma série de pós-processamentos para deixar o filme ainda melhor. Eles usaram ferramentas de efeitos visuais para corrigir certas tomadas do rosto de balão do personagem principal, por exemplo.

Woodman também acha que a música (que eles escreveram e executaram) e a narração (que eles também escreveram e executaram) ajudam a elevar ainda mais a qualidade do filme. Misturar esses toques humanos com a produção da Sora é o que faz o filme parecer vivo, diz Woodman. “A tecnologia não é nada sem você”, diz ele. “É uma ferramenta poderosa, mas você é a pessoa que a conduz.”

“Abstract”, de Paul Trillo

Paul Trillo, um artista e cineasta, queria ampliar o que Sora poderia fazer com o visual de um filme. Seu vídeo é uma mistura de filmagens em estilo retrô com imagens de uma figura que se transforma em uma bola de purpurina e um homem do lixo que dança breakdance. Ele diz que tudo o que você vê é resultado bruto do Sora: “sem correção de cor ou pós-tratamento”. Até mesmo as edições de corte na primeira parte do filme foram produzidas usando o modelo generativo.

Trillo achou que as demonstrações que a OpenAI apresentou no mês passado pareciam muito com clipes de videogames. “Eu queria ver quais outras estéticas eram possíveis”, diz ele. O resultado é um vídeo que parece ter sido filmado com um filme antigo de 16 milímetros. “Foram necessários muitos experimentos, mas acabei descobrindo uma série de instruções que ajudam a dar ao vídeo uma sensação mais orgânica ou cinematográfica”, diz ele.

“Além de nossa realidade”, de Don Allen Stevenson

Don Allen Stevenson III é cineasta e artista de efeitos visuais. Ele foi um dos artistas convidados pela OpenAI para experimentar o DALL-E 2, seu modelo de texto para imagem, há alguns anos. O filme de Stevenson é um documentário sobre a natureza no estilo NatGeo que nos apresenta a uma coleção de animais imaginários, desde o “giraflamingo” até o gato enguia.

De muitas maneiras, trabalhar com texto para vídeo é como trabalhar com texto para imagem, diz Stevenson. “Você insere um prompt de texto e depois o ajusta várias vezes”, diz ele. Mas há um obstáculo adicional. Quando você está experimentando diferentes prompts, o Sora produz um vídeo de baixa resolução. Quando você encontra algo que gosta, pode aumentar a resolução. Mas passar de baixa para alta resolução envolve outra rodada de geração, e o que você gostou na versão de baixa resolução pode se perder.

Às vezes, o ângulo da câmera é diferente ou os objetos na cena se moveram, diz Stevenson. A alucinação ainda é um recurso do Sora, assim como em qualquer modelo generativo. Com imagens estáticas, isso pode produzir defeitos visuais estranhos; com vídeo, esses defeitos também podem aparecer ao longo do tempo, com saltos estranhos entre os quadros.

Stevenson também teve que descobrir como falar a língua do Sora. Segundo ele, as instruções são interpretadas de forma muito literal. Em um experimento, ele tentou criar uma tomada com zoom em um helicóptero. O Sora produziu um clipe em que misturava um helicóptero com a lente de zoom de uma câmera. Mas Stevenson diz que, com muito estímulo criativo, o Sora é mais fácil de controlar do que os modelos anteriores.

Mesmo assim, ele acha que as surpresas são parte do que torna a tecnologia divertida de usar: “gosto de ter menos controle. Gosto do caos”, diz ele. Há muitas outras ferramentas de criação de vídeo que oferecem controle sobre a edição e os efeitos visuais. Para Stevenson, o objetivo de um modelo generativo como o Sora é criar materiais estranhos e inesperados para trabalhar.

Os clipes dos animais foram todos gerados com o Sora. Stevenson tentou várias instruções diferentes até que a ferramenta produzisse algo de que ele gostasse. “Eu a direcionei, mas é mais como um empurrãozinho”, diz ele. Em seguida, ele foi para frente e para trás, experimentando variações.

Stevenson imaginou que seu corvo raposa tinha quatro pernas, por exemplo. Mas Sora lhe deu duas, o que funcionou ainda melhor. (Não é perfeito: os espectadores atentos verão que, em um ponto do vídeo, o corvo raposa muda de duas pernas para quatro e depois volta). O Sora também produziu várias versões que ele achava que eram muito assustadoras para serem usadas.

Quando ele tinha uma coleção de animais que realmente gostava, ele os editava juntos. Em seguida, adicionava legendas e uma narração por cima. Stevenson poderia ter criado seu zoológico inventado com as ferramentas existentes. Mas isso levaria horas e até dias, diz ele. Com o Sora, o processo foi muito mais rápido.

“Eu estava tentando pensar em algo que ficasse legal e fiz experiências com vários personagens diferentes”, diz ele. “Tenho muitos clipes de criaturas aleatórias.” As coisas realmente se encaixaram quando ele viu o que Sora fez com o “giraflamingo”. “Comecei a pensar: qual é a narrativa em torno dessa criatura? O que ela come, onde vive?”, diz ele. Ele planeja lançar uma série de filmes estendidos acompanhando cada um dos animais de fantasia em mais detalhes.

Stevenson também espera que seus animais fantásticos tenham um significado maior. “Haverá muitos novos tipos de conteúdo inundando os feeds”, diz ele. “Como vamos ensinar às pessoas o que é real? Na minha opinião, uma maneira é contar histórias que são claramente de fantasia.”

Stevenson ressalta que seu filme pode ser a primeira vez que muitas pessoas veem um vídeo criado por um modelo generativo. Ele quer que essa primeira impressão deixe uma coisa bem clara: isso não é real.

O artigo original foi escrito por Will Douglas Heaven.

Último vídeo

Nossos tópicos