A IA está chegando também para a música
Inteligência artificial

A IA está chegando também para a música

Novos modelos de IA por difusão, capazes de criar canções do zero, estão complicando nossas definições de autoria e criatividade humana.

Inteligência Artificial era um termo quase inexistente em 1956, quando os principais cientistas da computação se reuniram no Dartmouth College (EUA) para uma conferência de verão. O cientista da computação John McCarthy cunhou a expressão na proposta de financiamento do evento, um encontro para debater como construir máquinas capazes de usar linguagem, resolver problemas como os humanos e melhorar a si mesmas. Mas foi uma escolha acertada, que capturava bem a premissa fundadora dos organizadores: qualquer característica da inteligência humana poderia, “em princípio, ser descrita de forma tão precisa que uma máquina poderia ser feita para simulá-la”.

Na proposta, o grupo listava diversos “aspectos do problema da inteligência artificial”. O último item da lista, e, em retrospecto, talvez o mais difícil, era construir uma máquina capaz de demonstrar criatividade e originalidade.

Na época, psicólogos ainda debatiam como definir e medir a criatividade humana. A teoria predominante, de que criatividade era um produto da inteligência e de um alto QI, estava perdendo força, mas os psicólogos não sabiam exatamente com o que substituí-la. Os organizadores de Dartmouth tinham sua própria proposta: “A diferença entre o pensamento criativo e o pensamento competente, porém sem imaginação, está na introdução de algum grau de aleatoriedade”, escreveram, acrescentando que essa aleatoriedade “deve ser guiada pela intuição para ser eficiente”.

Quase 70 anos depois, após diversos ciclos de auge e queda na área, hoje temos modelos de IA que, em grande medida, seguem essa receita. Enquanto os grandes modelos de linguagem, que geram texto, explodiram nos últimos três anos, um outro tipo de IA, baseado nos chamados modelos de difusão, está tendo um impacto sem precedentes em áreas criativas. Ao transformar ruído aleatório em padrões coerentes, os modelos de difusão podem gerar imagens, vídeos ou fala, guiados por comandos de texto ou outros dados de entrada. Os melhores são capazes de criar resultados indistinguíveis do trabalho humano, além de produções bizarras e surreais, que parecem nitidamente não humanas.

Agora, esses modelos estão avançando sobre um campo criativo que talvez seja mais vulnerável à disrupção do que qualquer outro: a música. Obras criativas geradas por IA, de performances orquestrais a heavy metal, estão prestes a se infiltrar em nossas vidas de forma mais abrangente do que qualquer outro produto da inteligência artificial até hoje. As músicas devem se integrar às nossas plataformas de streaming, playlists de festas e casamentos, trilhas sonoras e muito mais, independentemente de notarmos quem (ou o quê) as criou.

Há anos, os modelos de difusão provocam debates no mundo das artes visuais sobre se o que produzem reflete criação verdadeira ou mera replicação. Agora, esse debate chegou à música — uma forma de arte profundamente ligada às nossas experiências, memórias e vida social. Modelos musicais já conseguem criar canções capazes de despertar respostas emocionais reais, oferecendo um exemplo evidente de como está se tornando difícil definir autoria e originalidade na era da IA.

Os tribunais estão atualmente enfrentando esse território nebuloso. Grandes gravadoras estão processando os principais geradores de música por IA, alegando que os modelos de difusão fazem pouco mais do que replicar arte humana sem compensar os artistas. Os criadores dos modelos argumentam que suas ferramentas foram desenvolvidas para auxiliar na criação humana.

Ao tentar decidir quem está com a razão, somos forçados a refletir profundamente sobre a criatividade humana. Será que a criatividade, seja em redes neurais artificiais ou biológicas, é apenas o resultado de um vasto aprendizado estatístico e conexões estabelecidas, com uma pitada de aleatoriedade?

Se for, então autoria é um conceito escorregadio. Se não, se existe algum elemento distintamente humano na criatividade, o que é isso? O que significa ser tocado por algo que não foi criado por um ser humano? Tive que lidar com essas questões na primeira vez em que ouvi uma música gerada por IA que era genuinamente fantástica — foi perturbador saber que alguém apenas escreveu um comando e clicou em “gerar”. Esse dilema, em breve, será seu também.

Estabelecendo conexões

Após a conferência de Dartmouth, seus participantes seguiram por diferentes caminhos de pesquisa para criar as tecnologias fundamentais da IA. Ao mesmo tempo, cientistas cognitivos respondiam ao chamado de 1950 feito por J.P. Guilford, então presidente da Associação Americana de Psicologia, para abordar a questão da criatividade nos seres humanos. Eles chegaram a uma definição, formalizada pela primeira vez em 1953 pelo psicólogo Morris Stein no Journal of Psychology: obras criativas são, ao mesmo tempo, novas, no sentido de apresentarem algo inédito, e úteis, no sentido de servirem a algum propósito para alguém. Alguns propuseram substituir “útil” por “satisfatória”, enquanto outros sugeriram um terceiro critério: que coisas criativas também devem ser surpreendentes.

Mais tarde, nos anos 1990, o avanço da ressonância magnética funcional permitiu estudar com mais precisão os mecanismos neurais subjacentes à criatividade em diversos campos, inclusive na música. Métodos computacionais nos últimos anos também facilitaram o mapeamento do papel da memória e do pensamento associativo nas decisões criativas.

O que surgiu disso não foi uma grande teoria unificada sobre como uma ideia criativa se origina e se desenvolve no cérebro, mas sim uma lista cada vez maior de observações relevantes. Podemos, inicialmente, dividir o processo criativo humano em fases, incluindo uma etapa de ideação ou proposta, seguida por uma etapa mais crítica e avaliativa, que busca mérito nas ideias. Uma das principais teorias sobre o que guia essas duas fases é a teoria associativa da criatividade, que sustenta que as pessoas mais criativas são aquelas capazes de formar conexões inéditas entre conceitos distantes.

“Pode ser algo como ativação disseminada”, diz Roger Beaty, pesquisador que lidera o Laboratório de Neurociência Cognitiva da Criatividade na Penn State. “Você pensa em uma coisa, e isso meio que ativa conceitos relacionados àquele conceito inicial.”

Essas conexões geralmente dependem, especificamente, da memória semântica, que armazena conceitos e fatos, em contraste com a memória episódica, que guarda lembranças de momentos e lugares específicos.

Recentemente, modelos computacionais mais sofisticados têm sido usados para estudar como as pessoas fazem conexões entre conceitos separados por grandes “distâncias semânticas”. Por exemplo, a palavra “apocalipse” está mais relacionada a “energia nuclear” do que a “celebração”. Estudos demonstraram que pessoas altamente criativas podem perceber conceitos muito distintos semanticamente como estando próximos.

Descobriu-se que artistas geram associações entre palavras com maiores distâncias semânticas do que não artistas. Outras pesquisas apoiam a ideia de que pessoas criativas têm uma atenção “vazada”, ou seja, frequentemente notam informações que talvez não sejam particularmente relevantes para a tarefa imediata.

Os métodos da neurociência para avaliar esses processos não indicam que a criatividade ocorre em uma área específica do cérebro. “Nada no cérebro produz criatividade como uma glândula secreta um hormônio”, escreveu Dean Keith Simonton, um dos principais nomes da pesquisa em criatividade, no Cambridge Handbook of the Neuroscience of Creativity.

As evidências, segundo Roger Beaty, apontam para algumas redes dispersas de atividade durante o pensamento criativo, uma que apoia a geração inicial de ideias por meio do pensamento associativo, outra envolvida na identificação de ideias promissoras e outra na avaliação e modificação. Um estudo recente, conduzido por pesquisadores da Harvard Medical School e publicado em fevereiro, sugere que a criatividade pode até envolver a supressão de determinadas redes cerebrais, como aquelas relacionadas à autocensura.

Até agora, a criatividade das máquinas, se é que podemos chamá-la assim, parece bem diferente. Embora, na época da conferência de Dartmouth, os pesquisadores de IA estivessem interessados em máquinas inspiradas no cérebro humano, esse foco já havia mudado quando os modelos de difusão foram inventados, cerca de uma década atrás.

A melhor pista sobre como esses modelos funcionam está no nome. Se você mergulhar um pincel carregado de tinta vermelha em um copo com água, a tinta se difundirá e girará na água aparentemente ao acaso, até resultar em um líquido rosa claro. Os modelos de difusão simulam esse processo ao contrário, reconstruindo formas legíveis a partir do acaso.

Para entender como isso funciona com imagens, imagine uma foto de um elefante. Para treinar o modelo, você faz uma cópia da foto e adiciona uma camada de ruído preto e branco por cima. Em seguida, faz uma segunda cópia e adiciona ainda mais ruído, e assim por diante, centenas de vezes, até que a última imagem seja puro ruído estático, sem nenhum elefante visível.

Para cada imagem intermediária, um modelo estatístico prevê quanto da imagem é ruído e quanto é realmente o elefante. Ele compara suas previsões com as respostas corretas e aprende com os erros. Ao longo de milhões desses exemplos, o modelo se torna cada vez melhor em “remover o ruído” das imagens e associar esses padrões a descrições como “elefante macho de Bornéu em campo aberto”.

Agora que o modelo está treinado, gerar uma nova imagem significa reverter esse processo. Se você fornecer um comando, como “um orangotango feliz em uma floresta coberta de musgo”, o modelo gera uma imagem de ruído aleatório e, em seguida, trabalha de trás para frente, usando seu modelo estatístico para remover o ruído passo a passo. Primeiro, surgem formas e cores rudimentares. Depois vêm os detalhes, até que, se funcionar, um orangotango apareça, tudo isso sem que o modelo “saiba” o que é um orangotango.

Imagens musicais

A abordagem funciona de maneira bastante semelhante para a música. Um modelo de difusão não “compõe” uma música da mesma forma que uma banda, começando com acordes de piano e depois adicionando vocais e bateria. Em vez disso, todos os elementos são gerados ao mesmo tempo. O processo depende do fato de que as muitas complexidades de uma música podem ser representadas visualmente em uma única forma de onda, que mostra a amplitude de uma onda sonora em relação ao tempo.

Pense em uma vitrola. Ao percorrer o sulco de um disco de vinil, a agulha espelha o caminho das ondas sonoras gravadas no material e as transmite como um sinal para a caixa de som. A caixa de som simplesmente empurra o ar seguindo esses padrões, gerando ondas sonoras que reproduzem toda a música.

À distância, uma forma de onda pode parecer que apenas acompanha o volume da música. Mas se você der um zoom suficiente, poderá ver padrões nos picos e vales, como as 49 ondas por segundo de um contrabaixo tocando um sol grave. Uma forma de onda contém a soma das frequências de todos os instrumentos e texturas diferentes. “Você começa a ver certas formas surgindo”, diz David Ding, cofundador da empresa de música com IA Udio, “e isso corresponde a uma noção melódica mais ampla.”

Como formas de onda, ou gráficos semelhantes chamados espectrogramas, podem ser tratadas como imagens, é possível criar um modelo de difusão com elas. O modelo é alimentado com milhões de trechos de músicas existentes, cada um rotulado com uma descrição. Para gerar uma nova música, o processo começa com ruído completamente aleatório e trabalha de trás para frente para criar uma nova forma de onda. O caminho que o modelo percorre é moldado pelas palavras inseridas no comando.

Ding trabalhou no Google DeepMind por cinco anos como engenheiro de pesquisa sênior em modelos de difusão para imagens e vídeos, mas saiu para fundar a Udio, com sede em Nova York, em 2023. A empresa e sua concorrente Suno, com sede em Cambridge, Massachusetts, estão atualmente liderando a corrida por modelos de geração musical. Ambas têm como objetivo criar ferramentas de IA que permitam que pessoas sem formação musical façam música. A Suno é maior, afirma ter mais de 12 milhões de usuários e arrecadou uma rodada de financiamento de US$ 125 milhões em maio de 2024. A empresa fez parcerias com artistas como Timbaland. A Udio levantou uma rodada inicial de US$ 10 milhões em abril de 2024, com investimentos de nomes como Andreessen Horowitz e os músicos Will.i.am e Common.

Os resultados da Udio e da Suno até agora sugerem que existe um público significativo de pessoas que talvez não se importem se a música que ouvem foi feita por humanos ou por máquinas. A Suno possui páginas de artista para criadores, alguns com grandes audiências, que geram músicas inteiramente com IA, muitas vezes acompanhadas por imagens do artista também geradas por IA. Esses criadores não são músicos no sentido convencional, mas sim prompters habilidosos, criando obras que não podem ser atribuídas a um único compositor ou cantor. Nesse espaço emergente, nossas definições tradicionais de autoria, e as fronteiras entre criação e imitação, praticamente se dissolvem.

A indústria da música está reagindo. Ambas as empresas foram processadas por grandes gravadoras em junho de 2024, e os processos ainda estão em andamento. As gravadoras, incluindo Universal e Sony, alegam que os modelos de IA foram treinados com músicas protegidas por direitos autorais “em uma escala quase inimaginável” e geram músicas que “imitam as qualidades de gravações humanas reais” (o processo contra a Suno cita, por exemplo, uma música chamada “Prancing Queen”, próxima do estilo do ABBA).

A Suno não respondeu aos pedidos de comentário sobre o processo, mas em uma nota publicada em seu blog em agosto, o CEO Mikey Shulman afirmou que a empresa treina com músicas encontradas na internet aberta, que “de fato contém materiais protegidos por direitos autorais”. No entanto, argumentou, “aprender não é infringir”.

Um representante da Udio afirmou que a empresa não comentaria litígios em andamento. No momento do processo, a Udio divulgou um comunicado mencionando que seu modelo possui filtros para garantir que ele “não reproduza obras protegidas por direitos autorais nem vozes de artistas”.

Complicando ainda mais a situação está a orientação divulgada em janeiro pelo Escritório de Direitos Autorais dos EUA, que afirma que obras geradas por IA podem ser protegidas por copyright se envolverem uma quantidade considerável de contribuição humana. Um mês depois, uma artista em Nova York recebeu o que pode ser o primeiro direito autoral para uma obra visual criada com ajuda de IA. A primeira música pode ser a próxima.

Novidade e imitação

Esses processos judiciais adentram uma zona cinzenta semelhante à explorada em outras batalhas legais envolvendo IA. A questão central é se treinar modelos de IA com conteúdo protegido por direitos autorais é permitido e se as músicas geradas copiam injustamente o estilo de um artista humano.

Mas a música gerada por IA provavelmente vai se proliferar de alguma forma, independentemente das decisões judiciais. O YouTube estaria negociando com grandes gravadoras para licenciar suas músicas para treinamento de IA, e a recente ampliação dos acordos da Meta com a Universal Music Group sugere que a licença para músicas geradas por IA pode estar sendo considerada.

Se a música com IA veio para ficar, alguma delas será realmente boa? Considere três fatores: os dados de treinamento, o modelo de difusão em si e o prompt. O modelo só pode ser tão bom quanto a biblioteca de músicas da qual aprende e as descrições dessas músicas, que precisam ser complexas para captá-las com precisão. A arquitetura do modelo determina, então, quão bem ele consegue usar o que aprendeu para gerar músicas. E o prompt que você insere no modelo, bem como o grau em que ele “entende” o que você quer dizer com algo como “abaixe esse saxofone”, por exemplo, também é decisivo.

O resultado é criação ou simplesmente reprodução dos dados de treinamento? Poderíamos fazer a mesma pergunta sobre a criatividade humana.

Talvez a questão mais importante seja a primeira: quão extensa e diversa é a base de dados de treinamento, e quão bem ela foi rotulada? Nem a Suno nem a Udio revelaram quais músicas compõem seu conjunto de treinamento, embora esses detalhes provavelmente precisem ser divulgados durante os processos judiciais.

A Udio afirma que a forma como essas músicas são rotuladas é essencial para o modelo. “Uma área de pesquisa ativa para nós é: como conseguimos descrições cada vez mais refinadas da música?”, diz Ding. Uma descrição básica identificaria o gênero, mas também seria possível dizer se uma música é melancólica, animada ou tranquila. Descrições mais técnicas podem mencionar uma progressão de acordes dois-cinco-um ou uma escala específica. A Udio diz que realiza esse processo por meio de uma combinação de rotulagem feita por máquinas e por humanos.

“Como queremos atingir uma ampla variedade de usuários finais, isso também significa que precisamos de uma ampla variedade de anotadores musicais”, afirma. “Não apenas pessoas com doutorado em música, que conseguem descrever a música em um nível altamente técnico, mas também entusiastas da música que têm seu próprio vocabulário informal para descrevê-la.”

Geradores de música por IA competitivos também precisam aprender constantemente com novas músicas criadas por humanos, caso contrário, seus resultados ficarão presos no tempo, com sonoridade ultrapassada e sem frescor. Para isso, a música gerada por IA atualmente ainda depende da arte feita por pessoas. No futuro, no entanto, os modelos de música por IA poderão ser treinados com suas próprias produções, uma abordagem que já está sendo testada em outros domínios da inteligência artificial.

Como os modelos começam com uma amostra aleatória de ruído, eles são não determinísticos; dar o mesmo comando ao mesmo modelo de IA resultará em uma nova música a cada vez. Isso também acontece porque muitos criadores de modelos de difusão, incluindo a Udio, injetam intencionalmente mais aleatoriedade ao longo do processo, essencialmente distorcendo levemente a forma de onda gerada em cada etapa, na esperança de adicionar imperfeições que tornem o resultado mais interessante ou real. Os próprios organizadores da conferência de Dartmouth já recomendavam essa tática em 1956.

Segundo Andrew Sanchez, cofundador e diretor de operações da Udio, é essa aleatoriedade inerente aos programas de IA generativa que surpreende muitas pessoas. Nos últimos 70 anos, os computadores executaram programas determinísticos: forneça uma entrada e receba sempre a mesma resposta.

“Muitos dos nossos parceiros artistas dizem: ‘Mas por que ele faz isso?’”, conta ele. “E nós respondemos: bem, na verdade, não sabemos.” A era generativa exige uma nova mentalidade — até mesmo para as empresas que a estão construindo: programas de IA podem ser confusos e indecifráveis.

O resultado é criação ou simples replicação dos dados de treinamento? Fãs de música gerada por IA me disseram que essa mesma pergunta poderia ser feita sobre a criatividade humana. À medida que ouvimos música durante a juventude, mecanismos neurais de aprendizado são moldados por essas experiências, e as memórias dessas músicas influenciam nossas produções criativas. Em um estudo recente, Anthony Brandt, compositor e professor de música da Universidade Rice, observou que tanto seres humanos quanto grandes modelos de linguagem usam experiências passadas para avaliar possíveis cenários futuros e fazer escolhas melhores.

De fato, grande parte da arte humana, especialmente na música, é emprestada. Isso frequentemente resulta em processos judiciais, com artistas alegando que uma canção foi copiada ou usada sem permissão. Alguns sugerem que os modelos de difusão deveriam ser mais transparentes, permitindo que soubéssemos, por exemplo, que determinada música tem três partes de David Bowie e uma parte de Lou Reed. A Udio afirma que há pesquisas em andamento para alcançar isso, mas, por enquanto, ninguém é capaz de fazer isso de maneira confiável.

Para grandes artistas, “há essa combinação entre novidade e influência que entra em jogo”, diz Sanchez. “E acho que isso também está presente nessas tecnologias.”

Mas há muitas áreas em que as tentativas de equiparar redes neurais humanas às artificiais rapidamente se desfazem sob escrutínio. Brandt destaca um domínio no qual vê a criatividade humana claramente acima das criações feitas por máquinas: o que ele chama de “amplificação da anomalia”. Modelos de IA operam no campo da amostragem estatística. Eles não funcionam enfatizando o excepcional, mas sim reduzindo erros e buscando padrões prováveis. Os humanos, por outro lado, se interessam pelas peculiaridades. “Em vez de serem tratadas como eventos isolados ou casos atípicos”, escreve Brandt, a excentricidade “permeia o produto criativo.”

Ele cita a decisão de Beethoven de adicionar uma nota inesperada e desafinada no último movimento de sua Sinfonia nº 8. “Beethoven poderia ter deixado por isso mesmo”, diz Brandt. “Mas, em vez de tratar como um evento isolado, Beethoven continua a fazer referência a esse acontecimento incongruente de várias maneiras. Ao fazer isso, o compositor transforma uma aberração momentânea e amplia seu impacto.” Podemos ver anomalias semelhantes nas amostragens reversas das gravações tardias dos Beatles, nos vocais acelerados de Frank Ocean ou na incorporação de “sons encontrados”, como gravações de um sinal sonoro de travessia ou de uma porta se fechando, preferidos por artistas como Charlie Puth e pelo produtor de Billie Eilish, Finneas O’Connell.

Se uma produção criativa é realmente definida como algo ao mesmo tempo novo e útil, a interpretação de Brandt sugere que as máquinas podem se igualar a nós no segundo critério, mas os humanos continuam imbatíveis no primeiro.

Para explorar se isso é verdade, passei alguns dias experimentando o modelo da Udio. Ele leva cerca de um ou dois minutos para gerar uma amostra de 30 segundos, mas, com versões pagas do modelo, é possível gerar músicas inteiras. Decidi escolher 12 gêneros musicais, gerar uma amostra de música para cada um e, depois, encontrar músicas semelhantes feitas por humanos. Montei um quiz para ver se as pessoas na redação conseguiriam identificar quais músicas foram feitas por IA.

A pontuação média foi de 46%. E, em alguns gêneros — especialmente os instrumentais — os ouvintes erraram mais do que acertaram. Ao observar as pessoas fazendo o teste diante de mim, notei que as características que apontavam com confiança como sinais de composição por IA — um instrumento com som falso, uma letra estranha — raramente levavam à resposta correta. Como era de se esperar, as pessoas se saíram pior nos gêneros com os quais tinham menos familiaridade; algumas se saíram bem em country ou soul, mas muitas não tiveram chance contra jazz, piano clássico ou pop. Beaty, o pesquisador em criatividade, acertou 66%, enquanto Brandt, o compositor, terminou com 50% (embora tenha acertado nas categorias de orquestra e sonata para piano).

Lembre-se de que o modelo não merece todo o crédito aqui; esses resultados não poderiam ter sido gerados sem o trabalho de artistas humanos cujas obras estavam nos dados de treinamento. Mas com apenas alguns comandos, o modelo gerou músicas que poucas pessoas identificariam como feitas por uma máquina. Algumas poderiam facilmente tocar em uma festa sem levantar objeções, e encontrei duas que realmente adorei — mesmo sendo músico a vida inteira e alguém geralmente exigente com música. Mas soar real não é o mesmo que soar original. As músicas não pareciam impulsionadas por excentricidades ou anomalias — certamente nada no nível do “susto” de Beethoven. Tampouco pareciam romper gêneros ou fazer grandes saltos entre temas. No meu teste, as pessoas às vezes hesitavam em decidir se uma música era gerada por IA ou simplesmente ruim.

Mini Banner - Assine a MIT Technology Review

No fim das contas, o quanto isso importa? Os tribunais terão um papel em decidir se os modelos de música por IA estão oferecendo réplicas ou criações novas, e como os artistas devem ser compensados nesse processo, mas nós, como ouvintes, é que decidiremos seu valor cultural. Para apreciar uma música, precisamos imaginar um artista humano por trás dela, alguém com vivências, ambições, opiniões? Uma música deixa de ser excelente se descobrirmos que foi feita por uma IA?

Sanchez diz que as pessoas podem se perguntar quem está por trás da música. Mas “no fim do dia, independentemente de quanto é IA ou quanto é humano, isso vai ser arte”, afirma. “E as pessoas vão reagir com base na qualidade dos seus méritos estéticos.”

No meu experimento, no entanto, percebi que essa questão realmente importava para as pessoas — e algumas resistiam veementemente à ideia de gostar de uma música feita por um modelo de computador. Quando uma das participantes do teste começou instintivamente a balançar a cabeça ao som de uma música eletro-pop do quiz, seu rosto expressou dúvida. Era como se estivesse se esforçando ao máximo para imaginar um ser humano, e não uma máquina, como compositor daquela música.
“Poxa”, ela disse, “eu realmente espero que isso não seja IA.”

Último vídeo

Nossos tópicos