O segredo sombrio por trás das imagens fofas de animais geradas por Inteligência Artificial
Inteligência artificial

O segredo sombrio por trás das imagens fofas de animais geradas por Inteligência Artificial

O Google Brain revelou sua própria Inteligência Artificial de criação de imagens, chamada Imagen. Mas não espere ver nada que não seja agradável.

Mais um mês, mais uma enxurrada de imagens estranhas e maravilhosas geradas por uma Inteligência Artificial (IA). Em abril, a OpenAI mostrou sua nova rede neural de criação de imagens, o DALL-E 2, que pode produzir imagens extraordinárias em alta resolução de quase tudo o que for solicitado. Ela superou o DALL-E original em quase todos os sentidos.

Poucas semanas depois, o Google Brain revelou sua própria IA de criação de imagens, chamada Imagen. Ela tem um desempenho ainda melhor do que o DALL-E 2: tirou notas maiores em uma avaliação padrão para analisar a qualidade de imagens geradas por computador, e um grupo de juízes humanos preferiu as imagens produzidas por ela.
Um usuário do Twitter comentou que “Estamos vivendo a corrida espacial da IA!”. “A indústria dos bancos de imagem está oficialmente morta”, escreveu outro.
[Twitter]

Muitas das imagens do Imagen são realmente impressionantes. À primeira vista, algumas de suas paisagens poderiam ter sido retiradas das páginas da National Geographic. Equipes de marketing podem usar o Imagen para produzir anúncios prontos para divulgação com apenas alguns cliques.

Mas, assim como a OpenAI fez com o DALL-E, o Google está apostando tudo na fofura. Ambas as empresas promovem suas ferramentas com fotos de animais antropomórficos fazendo coisas adoráveis: um panda fofinho fazendo massa vestido de chef, um corgi sentado dentro de uma casa feita de sushi, um ursinho de pelúcia nadando os 400 metros borboleta nas Olimpíadas, e por aí vai.

[Twitter]

Há um motivo técnico, bem como de relações públicas, para isso. Misturar conceitos como “panda fofinho” e “fazendo massa” faz com que a rede neural aprenda a manipular esses conceitos de uma forma que faça sentido. Contudo, a fofura esconde um lado mais sombrio dessas ferramentas, que o público não pode ver uma vez que assim revelaria a triste verdade sobre como elas são criadas.

A maioria das imagens que a OpenAI e o Google tornam públicas são escolhidas a dedo. O esperado é que só vejamos imagens fofas que correspondem aos prompts com uma precisão assombrosa. Mas também não vemos imagens que contenham estereótipos negativos, racismo ou misoginia. Não há imagens violentas ou sexistas. Não há pornografia com pandas. E pelo que sabemos sobre como essas ferramentas são construídas, deveria haver.
[Twitter]

Não é segredo que modelos grandes, como o DALL-E 2 e o Imagen, treinados com um grande número de documentos e imagens tirados da web, absorvem não só os melhores aspectos desses dados, mas também os piores. A OpenAI e o Google reconhecem isso explicitamente.

Ao rolar para baixo na página do Imagen, e passar pela pitaia usando uma faixa de karatê e pelo pequeno cacto usando um chapéu e óculos de sol, chegamos na seção sobre o impacto social e você entende que: “Enquanto um subconjunto de nossos dados de treinamento foi filtrado para remover ruídos e conteúdo indesejável, como imagens pornográficas e linguagem tóxica, também utilizamos o conjunto de dados LAION-400M, que é conhecido por conter uma ampla gama de conteúdo impróprio, incluindo imagens pornográficas, insultos racistas e estereótipos sociais prejudiciais. O Imagen depende de codificadores de texto treinados com dados não filtrados da web inteira e, portanto, herda os vieses sociais e as limitações dos grandes modelos de linguagem. Consequentemente, existe o risco de o Imagen ter codificado estereótipos e representações prejudiciais, o que orienta nossa decisão de não liberar o Imagen para uso público antes da implementação de mais salvaguardas”.

É o mesmo tipo de reconhecimento que a OpenAI fez quando revelou o GPT-3 em 2019: “modelos treinados pela Internet têm vieses do tamanho da Internet”. E como apontou Mike Cook, que pesquisa criatividade da IA na Queen Mary University of London, no Reino Unido, esse reconhecimento está nas declarações de ética que acompanharam o PaLM, grande modelo de linguagem do Google, e o DALL-E 2 da OpenAI. Resumindo, essas empresas sabem que seus modelos são capazes de produzir um conteúdo horrível e não têm ideia de como consertar isso.

[Twitter]

Por enquanto, a solução é mantê-los enjaulados. A OpenAI está disponibilizando o DALL-E 2 apenas para um punhado de usuários confiáveis; o Google não tem planos de lançar o Imagen.

Não haveria problema se elas fossem apenas ferramentas privadas. Entretanto, essas empresas estão testando os limites do que a IA pode fazer e seu trabalho molda o tipo de IA com a qual todos nós convivemos. Elas estão criando novas maravilhas, mas também novos horrores, e seguindo em frente com indiferença. Quando a equipe interna de ética do Google levantou problemas com relação aos grandes modelos de linguagem, em 2020, gerou uma briga que terminou com a demissão de dois de seus principais pesquisadores.

Os grandes modelos de linguagem e as IAs de criação de imagens têm o potencial de ser tecnologias que mudam o mundo, mas somente se sua toxicidade for domada. Isso exigirá muito mais pesquisa. Vemos pequenos passos para abrir esses tipos de rede neural para estudo generalizado. Algumas semanas atrás, a Meta lançou um grande modelo de linguagem para pesquisadores, com todos os seus defeitos. E a empresa Hugging Face deve lançar sua versão de código aberto do GPT-3 nos próximos meses.

Por enquanto, aproveite os ursinhos.