OpenAI apresenta um novo e incrível modelo de vídeo generativo chamado Sora
Inteligência artificial

OpenAI apresenta um novo e incrível modelo de vídeo generativo chamado Sora

A empresa compartilhou a tecnologia com um pequeno grupo de testadores de segurança, mas o resto de nós terá que esperar para saber mais.

A OpenAI criou um novo e impressionante modelo de vídeo generativo chamado Sora, que pode pegar uma breve descrição de texto e transformá-la em um clipe de filme detalhado e de alta definição com até um minuto de duração. 

Com base em quatro exemplos de vídeos que a OpenAI compartilhou com a MIT Technology Review antes do anúncio, a empresa sediada em São Francisco ampliou os limites do que é possível fazer com a geração de texto para vídeo (uma nova direção de pesquisa que apontamos como uma tendência a ser observada em 2024).  

“Acreditamos que a criação de modelos capazes de entender vídeos e todas essas interações muito complexas do nosso mundo é uma etapa importante para todos os futuros sistemas de IA”, diz Tim Brooks, cientista da OpenAI. 

Mas há uma isenção de responsabilidade. A OpenAI nos deu uma prévia do Sora (que significa “céu” em japonês) sob condições de sigilo absoluto. Em uma atitude incomum, a empresa só compartilharia informações sobre o Sora se concordássemos em esperar até que as notícias sobre o modelo se tornassem públicas para buscar a opinião de especialistas externos. A OpenAI ainda não divulgou um relatório técnico nem demonstrou que o modelo está realmente funcionando. E diz que não lançará o Sora tão cedo, embora tenha compartilhado mais detalhes técnicos em seu site. 

Os primeiros modelos generativos capazes de produzir vídeos a partir de trechos de texto surgiram no final de 2022. No entanto, os primeiros exemplos da Meta, do Google e de uma startup chamada Runway eram irregulares e granulados. Desde então, a tecnologia vem melhorando rapidamente. O modelo gen-2 da Runway, lançado no ano passado, pode produzir clipes curtos que se aproximam da qualidade das animações de grandes estúdios. Mas a maioria desses exemplos ainda tem apenas alguns segundos de duração. 

Os vídeos de amostra do Sora da OpenAI são de alta definição e cheios de detalhes. A OpenAI também afirma que pode gerar vídeos de até um minuto de duração. Um vídeo de uma rua de Tóquio mostra que o Sora aprendeu como os objetos se encaixam em 3D: a câmera entra na cena para seguir um casal enquanto eles passeiam por uma fileira de lojas (veja o vídeo no final da matéria). 

A OpenAI também afirma que o Sora lida bem com a oclusão. Um problema com os modelos existentes é que eles podem não conseguir manter o controle dos objetos quando eles saem de vista. Por exemplo, se um caminhão passa em frente a uma placa de rua, a placa pode não reaparecer depois.   

Em um vídeo de uma cena subaquática, Sora adicionou o que parecem ser cortes entre diferentes partes da filmagem, e o modelo manteve um estilo consistente entre elas. 

Não é perfeito. No vídeo de Tóquio, os carros à esquerda parecem menores do que as pessoas que caminham ao lado deles. Eles também aparecem entre os galhos das árvores. “Definitivamente, há algum trabalho a ser feito em termos de coerência a longo prazo”, diz Brooks. “Por exemplo, se alguém sair de vista por um longo período, não voltará mais. O modelo meio que se esquece de que ela deveria estar lá.” 

  

Provocação tecnológica 

Por mais impressionantes que sejam, os vídeos de amostra exibidos aqui foram, sem dúvida, escolhidos a dedo para mostrar a melhor forma do modelo. Sem mais informações, é difícil saber se eles são representativos da produção típica do Sora. 

Pode levar algum tempo para descobrirmos. O anúncio da OpenAI sobre o Sora é uma provocação tecnológica, e a empresa diz que não tem planos atuais de lançá-lo ao público. Em vez disso, a OpenAI começou a compartilhar o modelo com testadores de segurança terceirizados pela primeira vez. 

Em particular, a empresa está preocupada com os possíveis usos indevidos de vídeos falsos, mas fotorrealistas. “Estamos sendo cuidadosos com a implementação aqui e nos certificando de que temos todas as nossas bases cobertas antes de colocarmos isso nas mãos do público em geral”, diz Aditya Ramesh, cientista da OpenAI, que criou o modelo de texto para imagem DALL-E da empresa. 

Mas a OpenAI está de olho no lançamento de um produto em algum momento no futuro. Além dos testadores de segurança, a empresa também está compartilhando o modelo com um grupo seleto de criadores de vídeo e artistas para obter feedback sobre como tornar o Sora o mais útil possível para profissionais criativos. “O outro objetivo é mostrar a todos o que está no horizonte, para dar uma prévia do que esses modelos serão capazes de fazer”, diz Ramesh. 

Para criar o Sora, a equipe adaptou a tecnologia por trás do DALL-E 3, a versão mais recente do principal modelo de texto para imagem da OpenAI. Como a maioria dos modelos de texto para imagem, o DALL-E 3 usa o que é conhecido como modelo de difusão. Esses modelos são treinados para transformar uma mancha de pixels aleatórios em uma imagem.  

O Sora adota essa abordagem e a aplica a vídeos em vez de imagens estáticas. Mas os pesquisadores também acrescentaram outra técnica à mistura. Ao contrário do DALL-E ou da maioria dos outros modelos de vídeo generativos, o Sora combina seu modelo de difusão com um tipo de rede neural chamada transformador. 

Os transformadores são excelentes para processar longas sequências de dados, como palavras. Isso fez com que eles se tornassem o ingrediente especial dentro de grandes modelos de linguagem, como o GPT-4 da OpenAI e o Gemini do Google DeepMind. Mas os vídeos não são feitos de palavras. Em vez disso, os pesquisadores tiveram que encontrar uma maneira de cortar os vídeos em pedaços que pudessem ser tratados como se fossem. A abordagem que eles encontraram foi dividir os vídeos no espaço e no tempo. “É como se você tivesse uma pilha de todos os quadros de vídeo e cortasse pequenos cubos dela”, diz Brooks. 

O transformador dentro do Sora pode então processar esses pedaços de dados de vídeo da mesma forma que o transformador dentro de um modelo de linguagem grande processa palavras em um bloco de texto. Os pesquisadores afirmam que isso permitiu que eles treinassem o Sora em muito mais tipos de vídeo do que outros modelos de texto para vídeo, variados em termos de resolução, duração, proporção e orientação. “Isso realmente ajuda o modelo”, diz Brooks. “Isso é algo sobre o qual não temos conhecimento de nenhum trabalho existente.” 

“Do ponto de vista técnico, parece um avanço muito significativo”, diz Sam Gregory, diretor executivo da Witness, uma organização de direitos humanos especializada no uso e no mau uso da tecnologia de vídeo. “Mas há dois lados da moeda”, diz ele. “Os recursos expressivos oferecem o potencial para que muito mais pessoas sejam contadoras de histórias usando vídeo. E há possibilidades reais de uso indevido.”  

A OpenAI está bem ciente dos riscos que vêm com um modelo de vídeo generativo. Já estamos vendo o uso indevido em larga escala de imagens deepfake. O vídeo fotorrealista leva isso a outro nível. 

Gregory observa que é possível usar uma tecnologia como essa para desinformar as pessoas sobre zonas de conflito ou protestos. A variedade de estilos também é interessante, diz ele. Se fosse possível gerar uma filmagem trêmula que parecesse algo filmado com um telefone, ela seria considerada mais autêntica. 

A tecnologia ainda não está pronta, mas o vídeo generativo passou de zero à Sora em apenas 18 meses. “Vamos entrar em um universo em que haverá conteúdo totalmente sintético, conteúdo gerado por humanos e uma mistura dos dois”, diz Gregory. 

A equipe da OpenAI planeja se basear nos testes de segurança realizados no ano passado para o DALL-E 3. O Sora já inclui um filtro que é executado em todas as solicitações enviadas ao modelo, bloqueando pedidos de imagens violentas, sexuais ou de ódio, bem como imagens de pessoas conhecidas. Outro filtro examinará os quadros dos vídeos gerados e bloqueará o material que viola as políticas de segurança da OpenAI. 

A OpenAI diz que também está adaptando um detector de imagens falsas desenvolvido para o DALL-E 3 para ser usado com o Sora. E a empresa incorporará tags C2PA padrão do setor, metadados que indicam como uma imagem foi gerada, em todos os resultados do Sora. Mas essas etapas estão longe de ser infalíveis. Os detectores de imagens falsas são imprevisíveis. Os metadados são fáceis de remover, e a maioria dos sites de mídia social os remove das imagens carregadas por padrão.   

“Definitivamente, precisaremos receber mais feedback e aprender mais sobre os tipos de riscos que precisam ser tratados com vídeo antes de fazer sentido lançarmos isso”, diz Ramesh. 

Brooks concorda. “Parte do motivo pelo qual estamos falando sobre essa pesquisa agora é para que possamos começar a receber as informações de que precisamos para fazer o trabalho necessário para descobrir como ela poderia ser implantada com segurança”, diz ele. 

  

Último vídeo

Nossos tópicos