Quando a OpenAI revelou seu novo modelo de vídeo generativo em março, o Sora, ela convidou alguns cineastas para experimentá-lo. Nesta semana, a empresa publicou os resultados: sete curtas-metragens surreais, que não deixam dúvidas de que o futuro do vídeo generativo está chegando rapidamente.
O primeiro lote de modelos capazes de transformar texto em vídeo surgiu no final de 2022, de empresas como Meta, Google e a startup de tecnologia de vídeo Runway. Era um truque interessante, mas os resultados eram granulados, com falhas e com apenas alguns segundos de duração.
Passados 18 meses, o melhor da produção fotorrealista e de alta definição do Sora é tão impressionante que alguns observadores, sem fôlego, estão prevendo a morte de Hollywood. Os modelos mais recentes da Runway podem produzir clipes curtos que competem com os produzidos por estúdios de animação de grande sucesso. A Midjourney e a Stability AI, as empresas por trás de dois dos modelos mais populares de conversão de texto em imagem, agora também estão trabalhando com vídeo.
Várias empresas estão correndo para criar um negócio com base nestas descobertas. A maioria está descobrindo à medida que avança. “Eu sempre grito: ‘Caramba, isso é muito legal’ enquanto brinco com essas ferramentas”, diz Gary Lipkowitz, CEO da Vyond, uma empresa que fornece uma plataforma de apontar e clicar para criar vídeos animados curtos. “Mas como você pode usar isso no trabalho?”
Seja qual for a resposta a essa pergunta, é provável que a tecnologia venha a transformar uma ampla gama de negócios e mudar as funções de muitos profissionais, de animadores a publicitários. O receio de uso indevido também está crescendo. A capacidade generalizada de gerar vídeos falsos tornará mais fácil do que nunca inundar a Internet com propaganda e pornografia não consensual. Podemos prever isso. O problema é que ninguém tem uma boa solução.
Enquanto continuamos a lidar com o que está por vir – bom e ruim -, aqui estão quatro coisas para se pensar. Também selecionamos uma seleção dos melhores vídeos que os cineastas fizeram usando essa tecnologia, incluindo uma revelação exclusiva de “Somme Requiem”, um curta-metragem experimental da produtora Myles, de Los Angeles. Continue lendo para ter uma ideia do rumo que a produção de filmes com IA está tomando.
1. Sora é apenas o começo
Atualmente, o Sora da OpenAI está muito acima da concorrência na geração de vídeos. No entanto, outras empresas estão trabalhando duro para alcançá-lo. O mercado ficará extremamente concorrido nos próximos meses, à medida que mais empresas aperfeiçoarem sua tecnologia e começarem a lançar os rivais do Sora.
A startup Haiper, sediada no Reino Unido, saiu da clandestinidade em março. Ela foi fundada em 2021 por ex-pesquisadores do Google DeepMind e do TikTok que queriam trabalhar na tecnologia chamada campos de radiância neural, ou NeRF (em inglês), que pode transformar imagens 2D em ambientes virtuais 3D. Eles achavam que uma ferramenta que transformava fotos instantâneas em cenas nas quais os usuários poderiam entrar, seria útil para a criação de videogames.
Mas, há seis meses, a Haiper mudou de ambientes virtuais para videoclipes, adaptando sua tecnologia para se adequar ao que o CEO Yishu Miao acredita que será um mercado ainda maior do que o de jogos. “Percebemos que a geração de vídeos era o ponto ideal”, diz Miao. “Haverá uma demanda muito alta por isso.”
Como o Sora da OpenAI, a tecnologia de vídeo generativo da Haiper usa um modelo de difusão para gerenciar os visuais e um transformador (o componente em modelos de linguagem grandes, como o GPT-4, que os torna tão bons em prever o que vem a seguir) para gerenciar a consistência entre os quadros. “Os vídeos são sequências de dados, e os transformadores são o melhor modelo para aprender sequências”, diz Miao.
A consistência é um grande desafio para o vídeo generativo e o principal motivo pelo qual as ferramentas existentes produzem apenas alguns segundos de vídeo por vez. Os transformadores para geração de vídeo podem aumentar a qualidade e a duração dos clipes. A desvantagem é que os transformadores inventam coisas. No texto, isso nem sempre é óbvio. Em vídeo, isso pode resultar, por exemplo, em uma pessoa com várias cabeças. Manter os transformadores no caminho certo requer vastos silos de dados de treinamento e armazéns cheios de computadores.
É por isso que a Irreverent Labs, fundada por ex-pesquisadores da Microsoft, está adotando uma abordagem diferente. Assim como a Haiper, a Irreverent Labs começou gerando ambientes para jogos antes de mudar para a geração completa de vídeos. Mas a empresa não quer seguir o rebanho, copiando o que a OpenAI e outros estão fazendo. “Porque então é uma batalha de computação, uma guerra total de GPUs”, diz David Raskino, cofundador e CTO da Irreverent. “E só há um vencedor nesse cenário, e ele usa uma jaqueta de couro.” (Ele está se referindo a Jensen Huang, CEO da gigante trilionária de chips Nvidia).
Em vez de usar um transformador, a tecnologia da Irreverent combina um modelo de difusão com um modelo que prevê o que está no próximo quadro com base na física do senso comum, por exemplo, como uma bola quica ou como a água espirra no chão. Raskino diz que essa abordagem reduz os custos de treinamento e o número de alucinações. O modelo ainda produz falhas, mas elas são distorções da física (como uma bola quicando que não segue uma curva suave, por exemplo) com correções matemáticas conhecidas que podem ser aplicadas ao vídeo depois que ele é gerado, diz ele.
Resta saber qual abordagem será a mais duradoura. Miao compara a tecnologia atual a modelos de linguagem grandes, como o GPT-2. Há cinco anos, o modelo inicial inovador da OpenAI surpreendeu as pessoas porque mostrou o que era possível. Mas foram necessários vários anos para que a tecnologia se tornasse um divisor de águas.
O mesmo acontece com o vídeo, diz Miao: “Estamos todos na base da montanha”.
2. O que as pessoas farão com o vídeo generativo?
O vídeo é a mídia da Internet. YouTube, TikTok, noticiários, anúncios: a expectativa é ver vídeos sintéticos surgindo em todos os lugares onde eles já existem.
O setor de marketing é um dos que mais adotam a tecnologia generativa com entusiasmo. Dois terços dos profissionais de marketing já experimentaram a IA generativa em seus trabalhos, de acordo com uma pesquisa recente realizada pela Adobe nos Estados Unidos, sendo que mais da metade disse ter usado a tecnologia para produzir imagens.
O vídeo generativo é o próximo. Algumas empresas de marketing já lançaram curtas-metragens para demonstrar o potencial da tecnologia. O exemplo mais recente é o “Somme Requiem”, com 2,5 minutos de duração, feito pela Myles. Você pode assistir ao filme abaixo em uma revelação exclusiva da MIT Technology Review.
“Somme Requiem” retrata soldados presos na neve durante o cessar-fogo de Natal da Primeira Guerra Mundial em 1914. O filme é composto por dezenas de tomadas diferentes que foram produzidas usando um modelo de vídeo generativo da Runway, depois unidas, com correção de cores e com música definida por editores de vídeo humanos da Myles. “O futuro da narração de histórias será um fluxo de trabalho híbrido”, diz o fundador e CEO Josh Kahn.
Kahn escolheu o cenário do período de guerra para fazer uma observação. Ele observa que a série Masters of the Air da Apple TV+, que acompanha um grupo de aviadores da Segunda Guerra Mundial, custou US$ 250 milhões. A equipe por trás do documentário de Peter Jackson sobre a Primeira Guerra Mundial, They Shall Not Grow Old, passou quatro anos fazendo a curadoria e restaurando mais de 100 horas de filmes de arquivo. “A maioria dos cineastas só pode sonhar em ter a oportunidade de contar uma história nesse gênero”, diz Kahn.
“O cinema independente está quase morrendo”, acrescenta. “Acho que isso criará um ressurgimento incrível.”
Raskino espera que sim. “O gênero de filmes de terror é o lugar onde as pessoas testam coisas novas, experimentam coisas novas, até que elas se rompam”, diz ele. “Acho que veremos um filme de terror de grande sucesso criado por quatro pessoas em um porão de algum lugar, usando IA.”
Então, o vídeo generativo é um assassino de Hollywood? Ainda não. As tomadas de cena em “Somme Requiem” – bosques vazios, um campo militar desolado – parecem ótimas. Mas as pessoas que aparecem nelas ainda sofrem com dedos mutilados e rostos distorcidos, marcas registradas da tecnologia. O vídeo generativo é melhor em panorâmicas de grande angular ou close-ups demorados, o que cria uma atmosfera sinistra, mas com pouca ação. Se “Somme Requiem” fosse mais longo, ficaria monótono.
Mas as tomadas de cena aparecem o tempo todo em filmes de longa-metragem. A maioria tem apenas alguns segundos de duração, mas pode levar horas para ser filmada. Raskino sugere que os modelos de vídeo generativos poderão em breve ser usados para produzir essas tomadas intermediárias por uma fração do custo. Isso também poderia ser feito em tempo real em estágios posteriores da produção, sem a necessidade de refazer a filmagem.
Michal Pechoucek, CTO da Gen Digital, a gigante da segurança cibernética por trás de uma série de marcas de antivírus, incluindo Norton e Avast, concorda. “Acho que é para onde a tecnologia está indo”, diz ele. “Veremos muitos modelos diferentes, cada um treinado especificamente em um determinado domínio da produção de filmes. Essas serão apenas ferramentas usadas por equipes de produção de vídeo talentosas.”
Ainda não chegamos lá. Um grande problema com o vídeo generativo é a falta de controle que os usuários têm sobre o resultado. A produção de imagens estáticas pode ser um sucesso e um fracasso; produzir alguns segundos de vídeo é ainda mais arriscado.
“No momento, ainda é divertido. Você tem momentos de ‘a-ha’”, diz Miao. “Mas gerar um vídeo que seja exatamente o que você deseja é um problema técnico muito difícil. Ainda estamos longe de gerar vídeos longos e consistentes a partir de um único prompt.”
É por isso que Lipkowitz, da Vyond, acredita que a tecnologia ainda não está pronta para a maioria dos clientes corporativos. Segundo ele, esses usuários querem muito mais controle sobre a aparência de um vídeo do que as ferramentas atuais lhes oferecem.
Milhares de empresas em todo o mundo, incluindo cerca de 65% das empresas da Fortune 500, usam a plataforma da Vyond para criar vídeos animados para comunicações internas, treinamento, marketing e muito mais. A Vyond se baseia em uma série de modelos generativos, incluindo texto para imagem e texto para voz, mas oferece uma interface simples de arrastar e soltar que permite aos usuários montar um vídeo manualmente, peça por peça, em vez de gerar um clipe completo com um clique.
“Executar um modelo generativo é como jogar dados”, diz Lipkowitz. “Esse é um difícil não para a maioria das equipes de produção de vídeo, especialmente no setor empresarial, onde tudo deve ser perfeito em termos de pixels e de marca”, diz ele. “Se o vídeo ficar ruim – talvez os personagens tenham muitos dedos, ou talvez o logotipo da empresa esteja na cor errada – bem, azar, é assim que a geração de IA funciona.”
A solução? Mais dados, mais treinamento e repetição. “Eu gostaria de poder apontar alguns algoritmos sofisticados”, diz Miao. “Mas não, é apenas muito mais aprendizado.”
3. A desinformação não é nova, mas as falsificações profundas a tornarão pior.
A desinformação on-line vem minando nossa fé na mídia, nas instituições e uns nos outros há anos. Alguns temem que a adição de vídeos falsos à mistura destrua os pilares da realidade compartilhada que ainda temos.
“Estamos substituindo a confiança por desconfiança, confusão, medo e ódio”, diz Pechoucek. “A sociedade sem a verdade real vai se degenerar.”
Pechoucek está especialmente preocupado com o uso malicioso de deepfakes nas eleições. Durante as eleições do ano passado na Eslováquia, por exemplo, os invasores compartilharam um vídeo falso que mostrava o principal candidato discutindo planos para manipular os eleitores. O vídeo era de baixa qualidade e fácil de identificar como um deepfake. Mas Pechoucek acredita que foi o suficiente para virar o resultado a favor do outro candidato.
John Wissinger, que lidera as equipes de estratégia e inovação da Blackbird AI, uma empresa que rastreia e gerencia a disseminação de desinformação on-line, acredita que os vídeos falsos serão mais persuasivos quando misturarem imagens reais e falsas. Veja dois vídeos que mostram o presidente Joe Biden andando em um palco. Em um deles, ele tropeça, no outro, não. Quem pode dizer qual deles é real?
“Digamos que um evento tenha realmente ocorrido, mas a forma como ele é apresentado para mim é sutilmente diferente”, diz Wissinger. “Isso pode afetar minha resposta emocional a ele.” Como observou Pechoucek, um vídeo falso nem precisa ser tão bom para causar impacto. Uma falsificação ruim que se encaixe nos preconceitos existentes causará mais danos do que uma falsificação inteligente que não se encaixe, diz Wissinger.
É por isso que o Blackbird se concentra em quem está compartilhando o quê com quem. De certa forma, o fato de algo ser verdadeiro ou falso é menos importante do que a sua origem e a forma como está sendo disseminado, diz Wissinger. Sua empresa já rastreia desinformação de baixa tecnologia, como publicações em mídias sociais que mostram imagens reais fora de contexto. As tecnologias geradoras pioram as coisas, mas o problema das pessoas que apresentam a mídia de forma enganosa, deliberadamente ou não, não é novo, diz ele.
Adicione bots à mistura, compartilhando e promovendo desinformação nas redes sociais, e as coisas ficam complicadas. O simples fato de saber que a mídia falsa está por aí já semeia a dúvida no discurso de má-fé. “Você pode ver como, em breve, será impossível discernir entre o que é sintetizado e o que é real”, diz Wissinger.
4. Estamos enfrentando uma nova realidade on-line.
Em breve, as falsificações estarão em toda parte, desde campanhas de desinformação até anúncios publicitários e sucessos de bilheteria de Hollywood. Então, o que podemos fazer para descobrir o que é real e o que é apenas fantasia? Há uma série de soluções, mas nenhuma funcionará sozinha.
O setor de tecnologia está trabalhando no problema. A maioria das ferramentas generativas tenta impor determinados termos de uso, como impedir que as pessoas criem vídeos de figuras públicas. Mas há maneiras de contornar esses filtros, e as versões de código aberto das ferramentas podem vir com políticas mais permissivas.
As empresas também estão desenvolvendo padrões para a marca d’água de mídia gerada por IA e ferramentas para detectá-la. Mas nem todas as ferramentas adicionam marcas d’água, e as marcas d’água podem ser removidas dos metadados de um vídeo. Também não existe nenhuma ferramenta de detecção confiável. Mesmo que essas ferramentas funcionassem, elas se tornariam parte de um jogo de gato e rato para tentar acompanhar os avanços dos modelos para os quais foram projetadas.
Plataformas on-line como X e Facebook têm um histórico ruim quando se trata de moderação. Não devemos esperar que elas se saiam melhor quando o problema se tornar mais difícil. Miao trabalhava no TikTok, onde ajudou a criar uma ferramenta de moderação que detecta uploads de vídeo que violam os termos de uso do TikTok. Até ele está cauteloso com o que está por vir: “Há um perigo real lá fora”, diz ele. “Não confie nas coisas que você vê em seu laptop.”
A Blackbird desenvolveu uma ferramenta chamada Compass, que permite verificar os fatos em artigos e publicações de mídia social. Cole um link na ferramenta e um grande modelo de linguagem gera uma sinopse extraída de fontes on-line confiáveis (que estão sempre abertas à revisão, diz Wissinger) que fornece algum contexto para o material vinculado. O resultado é muito semelhante às notas da comunidade que às vezes são anexadas a publicações polêmicas em sites como X, Facebook e Instagram. A empresa prevê que o Compass gere notas da comunidade para qualquer coisa. “Estamos trabalhando nisso”, diz Wissinger.
Mas as pessoas que colocam links em um site de verificação de fatos já são bastante experientes – e muitas outras podem não saber que essas ferramentas existem ou podem não estar inclinadas a confiar nelas. A desinformação também tende a se espalhar muito mais do que qualquer correção subsequente.
Enquanto isso, as pessoas discordam sobre de quem é o problema, em primeiro lugar. Pechoucek diz que as empresas de tecnologia precisam abrir seus softwares para permitir mais concorrência em termos de segurança e confiança. Isso também permitiria que as empresas de segurança cibernética, como a sua, desenvolvessem software de terceiros para policiar essa tecnologia. É o que aconteceu há 30 anos, quando o Windows teve um problema de malware, diz ele: “A Microsoft permitiu que as empresas de antivírus ajudassem a proteger o Windows. Como resultado, o mundo on-line se tornou um lugar mais seguro.”
Mas Pechoucek não é muito otimista. “Os desenvolvedores de tecnologia precisam criar suas ferramentas tendo a segurança como objetivo principal”, diz ele. “Mas mais pessoas pensam em como tornar a tecnologia mais poderosa do que se preocupam em como torná-la mais segura.”
Há um refrão fatalista comum no setor de tecnologia: a mudança está chegando, lide com ela. “A IA generativa não vai deixar de ser inventada”, diz Raskino. “Isso pode não ser muito popular, mas acho que é verdade: não acho que as empresas de tecnologia possam arcar com todo o ônus. No final das contas, a melhor defesa contra qualquer tecnologia é um público muito bem instruído. Não há atalho”.
Miao concorda. “É inevitável que adotemos maciçamente a tecnologia generativa”, diz ele. “Mas isso também é responsabilidade de toda a sociedade. Precisamos educar as pessoas.”
“A tecnologia avançará e precisamos estar preparados para essa mudança”, acrescenta. “Precisamos lembrar aos nossos pais e amigos que as coisas que eles veem na tela podem não ser autênticas.” Isso é especialmente verdadeiro para as gerações mais velhas, diz ele: “Nossos pais precisam estar cientes desse tipo de perigo. Acho que todos devem trabalhar juntos.”
Precisamos trabalhar juntos rapidamente. Quando o Sora foi lançado há um mês, o mundo da tecnologia ficou surpreso com a rapidez com que o vídeo generativo havia progredido. Mas a grande maioria das pessoas não faz ideia de que esse tipo de tecnologia existe, diz Wissinger: “Elas certamente não entendem as linhas de tendência em que estamos. Acho que isso vai pegar o mundo de surpresa”.
Por:Will Douglas Heaven
Will é editor sênior de IA na MIT Technology Review, cobrindo assuntos sobre novas pesquisas, tendências e pessoas por trás dela