O Ano em que a Criatividade Explodiu

O Ano em que a Criatividade Explodiu

A REVOLUÇÃO GENERATIVA CHEGOU. E NADA NUNCA MAIS SERÁ IGUAL.

Estava claro que a OpenAI havia descoberto algo importante. No final de 2021, uma pequena equipe de pesquisadores desenvolveu uma ideia no escritório da empresa em São Francisco (EUA). Depois ela ficou conhecida como uma nova versão do DALL-E, a Inteligência Artificial (IA) de criação de imagens da OpenAI, uma ferramenta que converte curtas descrições de texto em imagens: uma raposa pintada por Van Gogh, talvez, ou um corgi feito de pizza. Agora, só faltava descobrir o que fazer com isso.

“Na maioria das vezes, quando construímos algo, quase sempre temos que usá-lo internamente por um tempo”, disse Sam Altman, cofundador e CEO da OpenAI, a MIT Technology Review americana. “Tentamos descobrir o que é e para o que serviria”.

Não dessa vez. À medida que mexiam no modelo, todos os envolvidos perceberam que se tratava de algo especial. “Ficou muito claro que era algo grande, aquele era o nosso grande produto”, conta Altman. “Não houve discussão. Nem chegamos a ter uma reunião sobre isso”.

Mas ninguém, nem Altman nem a equipe do DALL-E, poderia ter previsto quão grande seria o impacto desse produto na sociedade. “É a primeira tecnologia de IA que se tornou popular entre as pessoas comuns”, afirma Altman.

O DALL-E 2 foi lançado em abril de 2022. Em maio, o Google anunciou (mas não lançou) dois modelos próprios de texto para imagem, o Imagen e o Parti. Depois veio o Midjourney, um modelo de texto para imagem feito para artistas. E agosto trouxe o

Stable Diffusion, um modelo de código aberto que a startup britânica Stability AI lançou ao público de forma gratuita.

As portas estavam escancaradas. A OpenAI recebeu um milhão de usuários novos em apenas dois meses e meio. Mais de um milhão de pessoas começaram a utilizar o Stable Diffusion através de seu serviço pago, o Dream Studio, em menos de metade desse tempo. Mais pessoas ainda utilizaram o Stable Diffusion por meio de aplicativos de terceiros ou instalaram a versão gratuita nos seus próprios computadores. (Emad Mostaque, fundador da Stability AI, diz que seu objetivo é chegar a um bilhão de usuários.)

Em seguida, no mês de outubro, tivemos a segunda rodada: uma série de modelos de texto para vídeo do Google, Meta e outros. Em vez de apenas gerar imagens estáticas, eles poderiam criar videoclipes curtos, animações e imagens 3D.

O ritmo de desenvolvimento é surpreendente. Em apenas alguns meses, a tecnologia inspirou centenas de manchetes de jornais e capas de revistas, encheu as redes sociais de memes, criou expectativas a níveis estratosféricos e desencadeou uma repercussão intensa.

“O choque e o pavor causados por essa tecnologia são incríveis. Além disso, ela é divertida, como as novas tecnologias devem ser”, afirma Mike Cook, um pesquisador de IA que estuda criatividade computacional na King’s College London, no Reino Unido. “Contudo, ela está mudando tão rapidamente que nossas impressões iniciais são atualizadas antes mesmo de nos acostumarmos com a ideia. Acredito que, como sociedade, vamos precisar de um tempo para digerir tudo isso”.

Os artistas se veem no meio de uma das maiores transformações de uma geração. Alguns vão perder trabalho, enquanto outros vão encontrar novas oportunidades. Um terceiro grupo está recorrendo aos tribunais, travando batalhas legais sobre o que consideram apropriação indevida de imagens para treinar modelos que podem acabar sendo seus substitutos.

Os criadores foram pegos de surpresa, confessa Don Allen Stevenson III, um artista digital morador da Califórnia que trabalhou em estúdios de efeitos visuais como a DreamWorks. “Para pessoas como eu, que possuem treinamento técnico, é muito assustador. Você fica tipo, ‘Ai meu Deus, isso é basicamente todo o meu trabalho'”, confessa ele. “Entrei em uma crise existencial no primeiro mês de uso do DALL-E”.

O prompt que dei ao DALL-E 2 para a imagem principal (p. 41) foi “um artista fazendo arte com uma ferramenta de IA em Alien – O 8º Passageiro (1979). Depois de conseguir uma imagem que achei boa, fiz alguns ajustes para limpar quaisquer características de IA e torná-la mais ‘real.’ Sou um grande fã da ficção científica daquela época”, explica Carter. A imagem à direita se baseia em uma variação desse mesmo prompt.

Todavia, enquanto alguns ainda estão se recuperando do choque inicial, muitos, incluindo Stevenson, estão encontrando maneiras de trabalhar com essas ferramentas e antecipar o que virá a seguir.

A verdade empolgante é que não fazemos ideia. Pois, embora as indústrias criativas (da mídia de entretenimento à moda, arquitetura, marketing e muito mais) sejam as primeiras que sentirão o impacto, essa tecnologia dará superpoderes criativos a todos. A longo prazo, elas poderiam ser utilizadas para projetar quase tudo, de novos tipos de fármacos a roupas e edifícios. A revolução generativa começou.

Uma revolução mágica

Para Chad Nelson, um criador digital que trabalhou em jogos de videogame e programas de TV, os modelos de texto para imagem são um avanço que só acontece uma vez na vida. “Essa tecnologia te faz ir daquela lâmpada de ideia na cabeça para um primeiro esboço em segundos”, diz ele. “A velocidade com que se pode criar e explorar as possibilidades é algo revolucionário. Vai além de qualquer coisa que eu tenha experimentado ao longo de 30 anos”.

Poucas semanas depois de sua estreia, as pessoas estavam usando essas ferramentas para criar protótipos e fazer brainstorming para tudo, desde ilustrações de revistas e modelos de apresentação de marketing até cenários de videogame e conceitos de filmes. As pessoas geraram fanarts, inclusive histórias em quadrinhos inteiras, e milhares foram compartilhadas online. Altman até usou o DALL-E para gerar designs de tênis, que foram fabricados para ele após compartilhar a imagem em seu Twitter.

Amy Smith, tatuadora e cientista da computação da Universidade Queen Mary de Londres (Reino Unido), usa o DALL-E para desenhar tatuagens. “Você pode se sentar com o cliente e criar imagens junto com ele”, aponta ela. “Estamos em uma revolução da geração de mídia”.

Paul Trillo, um artista digital e de vídeo que mora na Califórnia, acredita que a tecnologia tornará a troca de ideias no campo de efeitos visuais mais fácil e rápida. Segundo ele,

“As pessoas estão dizendo que isso é a morte dos artistas de efeitos, ou a morte dos designers de moda”. “Não acredito que seja a morte de nada. Pelo contrário, acho que significa que não precisaremos trabalhar à noite e aos fins de semana”.

As empresas de banco de imagens estão assumindo posições diferentes em relação ao uso dessa tecnologia. A Getty, por exemplo, proibiu imagens geradas por IA. A Shutterstock, por sua vez, assinou um acordo com a OpenAI para incorporar o DALL-E em seu site e diz que abrirá um fundo para reembolsar artistas cujo trabalho for usado para treinar os modelos.

Stevenson diz que experimentou usar o DALL-E em todas as etapas do processo que um estúdio de animação utiliza para produzir um filme, incluindo o design de personagens e ambientes. Com o DALL-E, ele conseguiu fazer o trabalho de vários departamentos em poucos minutos. “É inspirador para todas as pessoas que nunca conseguiram criar algo assim porque era caro demais ou técnico demais”, afirma ele. “Mas é aterrorizante se você não estiver aberto a mudanças”.

Nelson acredita que ainda há mais por vir. No futuro, ele vê essa tecnologia sendo adotada não apenas pela grande mídia, mas também por empresas de arquitetura e design. Entretanto, ele crê que algumas coisas ainda precisam ficar prontas antes.

De acordo com ele, “neste momento, é como se você tivesse uma caixinha mágica, um pequeno feiticeiro para te auxiliar”. Isso é ótimo se você quiser apenas continuar gerando imagens, mas não se precisar de um parceiro criativo. “Se eu quero criar histórias e construir mundos, ele precisa ter muito mais consciência sobre o que eu estou criando”, conclui.

Esse é o problema: esses modelos ainda não têm ideia do que estão fazendo.

Dentro da caixa preta

Para entender o motivo, vejamos como funcionam esses programas. Olhando do lado de fora, o software é uma caixa preta. Digite uma breve descrição (um prompt) e aguarde alguns segundos. Em seguida, ele lhe dá um punhado de imagens que se encaixam (mais ou menos) nessa descrição. Talvez você tenha que ajustar o texto para persuadir o modelo a produzir algo mais próximo do que você tinha em mente, ou para refinar um resultado. Isso ficou conhecido como engenharia de prompt.

As instruções para as imagens mais detalhadas e estilizadas podem ter centenas de palavras, e empregar as palavras certas se tornou uma habilidade valiosa. Nesse contexto, surgiram lojas online onde os prompts conhecidos por produzir resultados desejáveis são comprados e vendidos.

Os prompts podem conter frases que orientem o modelo a escolher um estilo específico: “popular no ArtStation” diz à IA para imitar o estilo (que costuma ser muito detalhado) das imagens populares no ArtStation, um site onde milhares de artistas exibem seus trabalhos; “Unreal engine” invoca o familiar estilo gráfico de certos videogames; e assim por diante. Os usuários podem até introduzir nomes de artistas específicos e fazer com que a IA produza imitações de seus trabalhos, o que enfureceu alguns artistas.

“Tentei representar metaforicamente a IA com o prompt ‘Big Bang’ e acabei com essas formas abstratas semelhantes a bolhas (à esquerda, embaixo). Não era exatamente o que eu queria, então fui mais literal com ‘explosão no espaço sideral fotografia dos anos 80’ (à esquerda, no topo), o que pareceu muito agressivo. Eu também tentei criar algumas plantas digitais colocando ‘plantas 8-bit pixel art’.”

Internamente, os modelos de texto para imagem têm dois componentes principais: uma rede neural treinada para combinar uma imagem com um texto que descreva essa imagem e outra para gerar imagens do zero. A ideia básica é fazer com que a segunda rede neural gere uma imagem que a primeira aceite como sendo correspondente ao prompt.

O avanço por trás dos novos modelos está na forma como as imagens são geradas. A primeira versão do DALL-E produzia imagens usando uma extensão da tecnologia do GPT-3, o modelo de linguagem da OpenAI, prevendo o próximo pixel em uma imagem como se fossem palavras em uma frase. Funcionou, mas não muito bem. “Não foi uma experiência exatamente mágica”, conta Altman. “É incrível que tenha funcionado”.

Em vez disso, o DALL-E 2 usa algo chamado diffusion models. Os diffusion models são redes neurais treinadas para limpar imagens, removendo o ruído pixelado adicionado pelo processo de treinamento. O processo envolve pegar imagens e alterar alguns pixels de cada vez, em muitas etapas, até que as imagens originais sejam apagadas e restem apenas pixels aleatórios. “Ao fazer isso mil vezes, a imagem vai parecer com o que obtemos ao arrancar o cabo da antena de um aparelho de TV antigo: só ruído branco”, explica Björn Ommer, que trabalha com IA generativa na Universidade de Munique, na Alemanha, e que ajudou a construir o diffusion model do Stable Diffusion.

Então, a rede neural é treinada para reverter esse processo e prever como seria a versão menos pixelada de uma determinada imagem. O resultado é que, se houver um caos de pixels, um diffusion model tentará gerar algo um pouco mais nítido. Se a imagem limpa

for reintroduzida, o modelo produzirá algo ainda mais nítido. Faça isso vezes suficientes, e o modelo pode transformar uma imagem de ruído branco da TV em uma imagem de alta resolução.

O truque dos modelos de texto para imagem é que esse processo é guiado pelo modelo de linguagem, que está tentando combinar um prompt com as imagens produzidas pelo diffusion model. Isso impulsiona o modelo de difusão na direção das imagens que o modelo de linguagem considera uma boa correspondência.

Mas os modelos não inventam essas ligações entre texto e imagens. Hoje em dia, a maioria dos modelos de texto para imagem é treinada com um grande conjunto de dados chamado LAION, que contém bilhões de pares de texto e imagens extraídos da internet. Isso significa que as imagens que obtemos de um modelo de texto para imagem são uma síntese do mundo tal como ele é representado online, ou seja, distorcido pelo preconceito (e pela pornografia).

Um último detalhe: há uma diferença pequena, mas crucial, entre os dois modelos mais populares, o DALL-E 2 e o Stable Diffusion. O modelo de difusão do DALL-E 2 funciona com imagens em tamanho real. Já o Stable Diffusion usa uma técnica chamada difusão latente, inventada por Ommer e seus colegas. Ela funciona em versões comprimidas de imagens codificadas no que é conhecido como um espaço latente dentro da rede neural, onde apenas as características essenciais de uma imagem são retidas.

Isso significa que o Stable Diffusion precisa de menos poder de computação para funcionar. Ao contrário do DALL-E 2, executado nos poderosos servidores da OpenAI, o Stable Diffusion pode ser executado em (bons) computadores pessoais. Grande parte da explosão da criatividade e do rápido desenvolvimento de novos aplicativos se deve ao fato de que o Stable Diffusion é de código aberto, o que significa que os programadores são livres para alterar, construir e ganhar dinheiro com ele. E, além disso, ele é leve o bastante para ser usado em casa.

Redefinindo a criatividade

Para alguns, esses modelos são um passo em direção à inteligência artificial geral, ou AGI, uma palavra superestimada da moda que se refere a uma futura IA que tenha habilidades de propósito geral ou até mesmo humanas. A OpenAI tem sido explícita quanto ao seu objetivo de alcançar o patamar da AGI. Por esse motivo, Altman não se importa que o DALL-E 2 agora concorra com uma série de ferramentas semelhantes, mesmo que algumas sejam gratuitas. “Estamos aqui para fazer uma AGI, não geradores de imagem”, afirma. “Ele se encaixará em um roteiro de produto mais vasto. É uma pequena amostra do que uma AGI fará”.

Isso é, no mínimo, otimista. Muitos especialistas acreditam que a IA de hoje nunca alcançará esse nível. Em termos de inteligência básica, os modelos de texto para imagem não são mais inteligentes do que as IAs geradoras de linguagem que os sustentam. Ferramentas como o GPT-3 e o PaLM do Google regurgitam padrões de texto ingeridos dos muitos bilhões de documentos usados em seus treinamentos. Da mesma forma, o DALL-E e o Stable Diffusion reproduzem associações entre texto e imagens encontradas em bilhões de exemplos online.

Os resultados são deslumbrantes, mas a ilusão se desfaz se olharmos com atenção. Esses modelos cometem pequenas gafes: eles respondem ao prompt “salmon in a river” (salmão em um rio) com uma imagem de postas de peixe flutuando rio abaixo, ou ao prompt “a bat flying over a baseball stadium” (um morcego voando sobre um estádio de beisebol) com uma imagem de um mamífero voador e um taco de madeira, pois a palavra “bat”, em inglês, possui os dois significados. Isso acontece porque eles se baseiam em uma tecnologia que não está nem perto de entender o mundo como os humanos (ou mesmo a maioria dos animais) entendem.

Mesmo assim, pode ser apenas uma questão de tempo até que esses modelos aprendam truques melhores. Segundo Cook, “as pessoas dizem que eles ainda não são muito bons em certas coisas, e é claro que não são. Mas podem vir a ser depois de cem milhões de dólares”.

É evidente que esse é o foco da OpenAI.

“Já sabemos como torná-lo 10 vezes melhor”, confessa Altman. “Sabemos haver tarefas de raciocínio lógico onde ele falha. Vamos fazer uma lista e lançar uma nova versão que resolva todos os problemas atuais”.

Se as alegações sobre inteligência e compreensão são exageradas, o que dizer sobre a criatividade? Entre os humanos, dizemos que artistas, matemáticos, empresários, crianças no jardim de infância e seus professores são todos exemplos de criatividade. Porém é difícil identificar o que essas pessoas têm em comum.

Para uns, os resultados são mais importantes. Outros argumentam que a forma como as coisas são feitas e o fato de haver um objetivo nesse processo são aspectos essenciais.

Ainda assim, muitos recorrem a uma definição dada por Margaret Boden, uma influente pesquisadora e filósofa de IA da Universidade de Sussex, no Reino Unido, que resume o conceito em três critérios-chave: para ser criativo, uma ideia ou produto precisa ser novo, surpreendente e valioso.

Fora isso, só é possível saber se alguém (ou algo) é criativo quando você olha para ele. Pesquisadores da área conhecida como criatividade computacional descrevem seu trabalho como o uso de computadores para produzir resultados que seriam considerados criativos se tivessem sido produzidos por humanos.

Smith, portanto, está feliz em dizer que essa nova leva de modelos generativos é criativa, apesar da estupidez deles. “Está muito claro que há inovação que não é controlada por intervenção humana nessas imagens”, diz ela. “Muitas vezes, a tradução do texto para a imagem é surpreendente e bonita”.

Maria Teresa Llano, que estuda criatividade computacional na Universidade Monash, em Melbourne, Austrália, concorda que os modelos de texto para imagem estão ampliando as definições anteriores. Mas Llano não acredita que eles sejam criativos. Segundo ela, os resultados gerados por esses programas podem começar a se tornar repetitivos depois de muito uso. Isso significa que eles ficam aquém de alguns, ou de todos, os requisitos de Boden. E isso pode ser uma limitação fundamental da tecnologia. Por definição, um modelo de texto para imagem produz novas imagens à semelhança de bilhões de imagens já existentes. Talvez o machine learning só consiga produzir imitações do material ao qual ele foi exposto no passado.

Isso pode não importar para a computação gráfica. A Adobe já está integrando geração de texto para imagem no Photoshop; o Blender, primo de código aberto do Photoshop, tem um plug-in do Stable Diffusion. E a OpenAI está colaborando com a Microsoft no desenvolvimento de uma ferramenta de texto para imagem para o Office.

É nesse tipo de interação, em versões futuras dessas ferramentas, que talvez possamos sentir o real impacto: de máquinas que não substituam a criatividade humana, mas a aprimorem. “A criatividade que vemos hoje vem do uso dos sistemas, e não dos próprios sistemas”, aponta Llano sobre o vaivém do diálogo entre usuário e tecnologia, necessários para produzir o resultado desejado.

Outros pesquisadores em criatividade computacional concordam com essa visão. Não se trata apenas do que tais máquinas fazem, mas como elas o fazem. Transformá-las em verdadeiras parceiras criativas significa forçá-las a serem mais autônomas, dando-lhes responsabilidade criativa, fazendo com que sejam curadoras, além de criadoras.

Aspectos disso virão em breve. Já existe um programa chamado CLIP Interrogator, que analisa uma imagem e apresenta um prompt para gerar mais imagens semelhantes. Outros estão usando o machine learning para incrementar prompts simples com frases projetadas para dar à imagem qualidade e fidelidade extras, automatizando a engenharia de prompt, um trabalho que existe há apenas alguns meses.

Enquanto essa enxurrada de imagens continua, estamos construindo as bases para outros projetos. “A internet está contaminada para sempre com imagens feitas por IAs”, alega Cook. “As imagens que fizemos em 2022 farão parte de qualquer modelo que seja feito a partir de agora”.

Teremos de esperar para ver ao certo qual será o impacto duradouro que essas ferramentas terão nas indústrias criativas, bem como em todo o campo da IA. A IA generativa se tornou mais uma ferramenta de expressão. Altman admite que passou a usar imagens geradas por IA em mensagens pessoais do jeito que costumava usar emojis. “Alguns dos meus amigos nem se dão ao trabalho de gerar a imagem, apenas digitam o prompt”, diz ele.

Todavia, os modelos de texto para imagem podem ser apenas o começo. A IA generativa pode, um dia, ser usada para projetar tudo, desde novos edifícios a novos fármacos. Pense em algo como um conversor de Texto-para-X, o X sendo qualquer outro formato.

De acordo com Nelson, “as pessoas vão perceber que a técnica ou a habilidade não são mais a barreira, agora tudo o que importa é sua capacidade de imaginar”.

Computadores já são usados em vários setores para gerar um grande número de potenciais projetos, de onde são selecionados aqueles que podem funcionar. Modelos de Texto-para-X permitiriam que um designer humano aperfeiçoasse o processo generativo desde o início, usando palavras para guiar os computadores por um número infinito de opções, rumo a resultados não apenas possíveis, mas desejáveis.

Os computadores podem conjurar espaços cheios de possibilidades infinitas. O Texto-para-X vai nos permitir explorá-los usando palavras.

“Acho que esse é o legado”, afirma Altman. “Imagens, vídeo, áudio… No futuro, tudo isso será gerado por IAs. Acho que vai se infiltrar em todos os lugares”.

Will Douglas Heaven é editor sênior de assuntos relacionados a IA na MIT Technology Review americana.

As IAs geradoras de arte nunca funcionam da maneira que queremos. Muitas vezes, produzem resultados horrendos que, na melhor das hipóteses, parecem fotos genéricas distorcidas. Na minha experiência, a única maneira de fazer o trabalho parecer bom de verdade é adicionar, no final, uma descrição com um estilo que seja esteticamente agradável.
O DALL-E 2 aceita tanto imagens quanto textos escritos como prompts. A imagem à direita foi criada enviando a imagem final de Erik Carter de volta para o DALL-E 2 como um prompt.

Último vídeo

Nossos tópicos