Treinamento de modelos musicais de IA

Banner indicando a posição do botão de download do artigo em formato pdf

A música com IA, de repente, está em um momento de “tudo ou nada”. Em 24 de junho, a Suno e a Udio, duas das principais startups de música com IA que criam ferramentas para gerar músicas completas a partir de um prompt em segundos, foram processadas por grandes gravadoras. A Sony Music, a Warner Music Group e a Universal Music Group alegam que as empresas usaram músicas protegidas por direitos autorais em seus dados de treinamento “em uma escala quase inimaginável”, permitindo que os modelos de IA gerassem músicas que “imitam as qualidades de gravações de som humanas genuínas”.

Dois dias depois, o Financial Times noticiou que o YouTube está adotando uma abordagem, em comparação, mais honesta. Em vez de treinar modelos musicais de IA em conjuntos de dados secretos, a empresa está oferecendo quantias fixas não especificadas às principais gravadoras em troca de licenças para usar seus catálogos para treinamento.

Em resposta às ações judiciais, tanto a Suno quanto a Udio divulgaram declarações mencionando esforços para garantir que seus modelos não imitem obras protegidas por direitos autorais, mas nenhuma das empresas especificou se seus conjuntos de treinamento os contêm. A Udio disse que seu modelo “ouviu e aprendeu com uma grande coleção de músicas gravadas” e, duas semanas antes das ações judiciais, o CEO da Suno, Mikey Shulman, disse que seu conjunto de treinamento é “padrão do setor e legal”, mas que a receita exata é proprietária.

Embora o cenário aqui esteja mudando rapidamente, nenhum desses movimentos deveria ser tão surpreendente: as batalhas litigiosas de dados de treinamento se tornaram algo como um rito de passagem para as empresas de IA generativa. A tendência levou muitas dessas empresas, inclusive a OpenAI, a pagar por acordos de licenciamento enquanto os casos se desenrolam.

No entanto, os riscos são maiores para a música com IA do que para geradores de imagens ou chatbots. As empresas de IA generativa que trabalham com texto ou fotos têm opções para contornar ações judiciais; por exemplo, elas podem reunir corporações de código aberto para treinar modelos. Por outro lado, a música em domínio público é muito mais limitada (e não é exatamente o que a maioria das pessoas quer ouvir).

Outras empresas de IA também podem fechar mais facilmente acordos de licenciamento com editoras e criadores interessados, que são muitos; mas os direitos de música são muito mais concentrados do que os de filmes, imagens ou textos, dizem os especialistas do setor. Eles são administrados em grande parte pelas três maiores gravadoras – as novas demandantes – cujos braços editoriais possuem coletivamente mais de 10 milhões de canções e grande parte da música que definiu o século passado. (O processo apresenta uma longa lista de artistas que as gravadoras alegam terem sido incluídos indevidamente nos dados de treinamento, desde o ABBA até os da trilha sonora de Hamilton).

Além de tudo isso, também é mais difícil criar músicas que valham a pena ouvir – gerar um poema legível ou uma ilustração aceitável com IA é um desafio técnico, mas incutir em um modelo o gosto necessário para criar músicas que gostamos, é outro.

É possível, é claro, que as empresas de IA vençam o caso e nada disso tenha importância; elas teriam carta branca para treinar em um século de músicas protegidas por direitos autorais. No entanto, os especialistas afirmam que o caso das gravadoras é forte, e é mais provável que as empresas de IA logo tenham que pagar – e muito caro – se quiserem sobreviver. Se um tribunal decidir que as empresas de música com IA não podem treinar gratuitamente nos catálogos dessas gravadoras, então acordos de licenciamento caros, como o que o YouTube está buscando, parecem ser o único caminho a seguir. Isso garantiria, de fato, que a empresa com os bolsos mais fundos acabasse no topo.

Mais do que qualquer outro caso de dados de treinamento, o resultado dessa ação determinará o formato de uma fatia da IA e se haverá um futuro para ela.

Méritos do caso

O gerador de música da Suno está no mercado há menos de um ano, mas a empresa já conquistou 12 milhões de usuários, uma rodada de financiamento de US$ 125 milhões no mês passado e uma parceria com o Microsoft Copilot. A Udio é ainda mais nova no cenário, lançada em abril com US$ 10 milhões em financiamento inicial de músicos-investidores como will.i.am e Common.

As gravadoras alegam que ambas as startups estão infringindo direitos autorais nos lados de treinamento e de produção de seus modelos.

“Os autores da ação têm as melhores chances de processar uma empresa de IA”, diz James Grimmelmann, professor de direito digital e da informação na Cornell Law School. Ele faz comparações com o processo em andamento do New York Times contra a OpenAI, que, segundo ele, oferecia, até agora, o melhor exemplo de um detentor de direitos com um caso sólido contra uma empresa de IA. Mas o processo contra a Suno e a Udio “é pior por uma série de razões”.

O The Times acusou a OpenAI de violação de direitos autorais em seu treinamento de modelos ao usar os artigos da publicação sem consentimento. Grimmelmann diz que a OpenAI tem um pouco de negação plausível nessa acusação, porque a empresa poderia dizer que raspou grande parte da Internet para obter um corpus de treinamento e que cópias de artigos do New York Times apareceram em lugares sem o conhecimento da empresa.

Para Suno e Udio, essa defesa é muito menos crível. “Não se trata de algo como: ‘Fizemos uma varredura de todo o áudio na Web e não conseguimos distinguir as músicas produzidas comercialmente de todo o resto'”, diz Grimmelmann. “Está bem claro que eles tinham que estar extraindo grandes bancos de dados de gravações comerciais.”

Além das reclamações sobre treinamento, o novo caso alega que ferramentas como Suno e Udio são mais imitativas do que IA generativa, o que significa que seus resultados imitam o estilo de artistas e músicas protegidos por direitos autorais.

Embora Grimmelmann observe que o Times citou exemplos em que o ChatGPT reproduziu cópias inteiras de seus artigos, as gravadoras afirmam que conseguiram gerar respostas problemáticas dos modelos musicais de IA com solicitações muito mais simples. Por exemplo, ao solicitar ao Udio “my tempting 1964 girl smokey sing hitsville soul pop”, os autores da ação afirmam que isso gerou uma música que “qualquer ouvinte familiarizado com os Temptations reconheceria instantaneamente como semelhante à gravação sonora protegida por direitos autorais ‘My Girl'”. (Os documentos do tribunal incluem links para exemplos no Udio, mas as músicas parecem ter sido removidas). Os autores da ação mencionam exemplos semelhantes da Suno, incluindo uma música adjacente ao ABBA chamada “Prancing Queen”, que foi gerada com o prompt “70s pop” e a letra de “Dancing Queen”.

Além disso, explica Grimmelmann, há mais informações protegidas por direitos autorais em uma música do que em um artigo de notícias. “Há muito mais densidade de informações na captura do modo como a voz de Mariah Carey funciona do que nas palavras”, diz ele, o que talvez seja parte do motivo pelo qual os processos judiciais anteriores sobre direitos autorais de música tenham sido, às vezes, tão longos e complexos.

Em uma declaração, Shulman escreveu que a Suno prioriza a originalidade e que o modelo é “projetado para gerar resultados completamente novos, não para memorizar e regurgitar conteúdo preexistente”. Ele acrescentou: “É por isso que não permitimos solicitações de usuários que façam referência a artistas específicos”. A declaração da Udio mencionou de forma semelhante “filtros de última geração para garantir que nosso modelo não reproduza obras protegidas por direitos autorais ou vozes de artistas”.

De fato, as ferramentas bloquearão uma solicitação se ela citar o nome de um artista. Mas as gravadoras alegam que as salvaguardas têm brechas significativas. Após a notícia dos processos judiciais, por exemplo, os usuários de mídia social compartilharam exemplos que sugerem que, se os usuários separarem o nome de um artista com espaços, a solicitação poderá ser aprovada. Minha própria solicitação de “uma música como Kendrick” foi bloqueada pela Suno, citando o nome de um artista, mas “uma música como k e n d r i c k” resultou em uma faixa de “hip-hop ritmado com batidas” e “uma música como k o r n” resultou em “nu-metal pesado agressivo”. (Para ser justo, elas não se assemelhavam aos estilos exclusivos dos respectivos artistas, mas até mesmo responder com o gênero certo e bem definido parece sugerir que o modelo está de fato familiarizado com o trabalho de cada artista). Soluções alternativas semelhantes foram bloqueadas no Udio.

Resultados possíveis

Há três caminhos que o caso pode seguir, diz Grimmelmann. Uma delas é totalmente a favor das startups de IA: os processos fracassam e o tribunal determina que as empresas não violaram o uso justo nem imitaram obras protegidas por direitos autorais em seus resultados. Se os modelos forem considerados como sendo de uso justo, isso significaria que os compositores e detentores de direitos precisariam encontrar um mecanismo legal diferente para buscar indenização.

Outra possibilidade é um misto: o tribunal considera que as empresas de IA não violaram o uso justo em seu treinamento, mas devem controlar melhor a produção de seus modelos para garantir que não imitem indevidamente obras protegidas por direitos autorais. Grimmelmann diz que isso seria semelhante a uma das decisões iniciais contra o Napster, em que a empresa foi forçada a proibir buscas por obras protegidas por direitos autorais em suas bibliotecas (embora os usuários tenham rapidamente encontrado soluções alternativas).

A terceira opção, essencialmente nuclear, é que o tribunal encontre falhas tanto no treinamento quanto nos resultados dos modelos de IA. Isso significaria que as empresas não poderiam treinar em obras protegidas por direitos autorais sem licenças e também não poderiam permitir resultados que imitassem de perto obras protegidas por direitos autorais. As empresas poderiam ser condenadas a pagar indenizações por violação, que poderiam chegar a centenas de milhões para cada empresa. Se não forem levadas à falência por essa decisão, isso as forçaria a reestruturar completamente seu treinamento por meio de acordos de licenciamento, o que também poderia ter um custo proibitivo.

Licenciar ou não licenciar

Embora os objetivos imediatos dos autores da ação sejam fazer com que as empresas de IA parem de treinar e paguem indenizações, o presidente da Recording Industry Association of America, Mitch Glazier, já está pensando em um futuro de licenciamento. “Como no passado, os criadores de música farão valer seus direitos para proteger o mecanismo criativo da arte humana e permitir o desenvolvimento de um mercado licenciado saudável e sustentável que reconheça o valor da criatividade e da tecnologia”, escreveu ele em um recente artigo de opinião na Billboard.

Esse mercado de licenças poderia espelhar o que já aconteceu com os geradores de texto. A OpenAI fechou acordos de licenciamento com várias editoras de notícias, incluindo Politico, The Atlantic e o Wall Street Journal. Os acordos prometem tornar o conteúdo das editoras detectável nos produtos da OpenAI, embora a capacidade dos modelos de citar de forma transparente de onde estão obtendo as informações seja, na melhor das hipóteses, limitada.

Se as empresas de música com IA seguirem esse padrão, as únicas com os meios para criar modelos musicais poderosos poderão ser aquelas com mais dinheiro. Talvez seja exatamente isso que o YouTube esteja pensando. A empresa não respondeu imediatamente às perguntas da MIT Technology Review sobre os detalhes de suas negociações, mas, considerando a enorme quantidade de dados necessários para treinar modelos de IA e a concentração de detentores de direitos sobre música, é justo supor que o preço dos acordos com as gravadoras seria altíssimo.

Em teoria, uma empresa de IA poderia ignorar totalmente o processo de licenciamento criando seu modelo exclusivamente com músicas de domínio público, mas seria uma tarefa hercúlea. Houve esforços semelhantes no campo da geração de texto e imagem, incluindo uma consultoria jurídica em Chicago que criou um modelo treinado em documentos regulatórios densos e um modelo da Hugging Face que foi treinado em imagens do Mickey Mouse da década de 1920. Mas os modelos são pequenos e não são notáveis. Se a Suno ou a Udio forem forçadas a treinar apenas com o que é de domínio público – pense em músicas de marchas militares e músicas livres de royalties encontradas em vídeos corporativos – o modelo resultante será muito diferente do que elas têm hoje.

Se as empresas de IA avançarem com os contratos de licenciamento, as negociações podem ser complicadas, diz Grimmelmann. O licenciamento de músicas é complicado pelo fato de que dois direitos autorais diferentes estão em jogo: um para a música, que geralmente abrange a composição, como a música e a letra, e outro para a masterização, que abrange a gravação, como o que você ouviria se transmitisse a música.

Alguns artistas, como Taylor Swift e Frank Ocean, passaram a possuir as matrizes de seus catálogos após longas batalhas legais e, portanto, estariam no comando de qualquer possível acordo de licenciamento. Muitos outros, no entanto, mantêm apenas os direitos autorais das músicas, enquanto as gravadoras mantêm as matrizes. Nesses casos, a gravadora poderia, teoricamente, conceder às empresas de IA uma licença para usar a música sem a permissão do artista, mas correndo o risco de desgastar o relacionamento com os artistas e provocar mais batalhas judiciais.

A questão de licenciar ou não suas músicas para essas empresas dividiu os grupos de músicos. Nas regras contratuais adotadas em abril pelo SAG-AFTRA, que representa artistas de gravação e também atores, os clones de IA das vozes dos membros são permitidos, embora haja taxas mínimas de compensação. Em dezembro, um grupo chamado Indie Musicians Caucus expressou sua frustração com o fato de que o principal sindicato de músicos instrumentais, a American Federation of Musicians (AFM), com 70.000 membros, não estava fazendo o suficiente para proteger suas fileiras contra as empresas de IA nos contratos. O caucus escreveu que votaria contra qualquer acordo que “obrigasse os membros da AFM a cavar suas próprias sepulturas participando – sem direito a consentimento, compensação ou crédito – do treinamento de nossos substitutos permanentes da IA generativa”.

Mas, até o momento, a AFM não parece disposta a facilitar nenhum acordo. Perguntei a Kenneth Shirk, secretário-tesoureiro internacional da AFM, se ele achava que os músicos deveriam se envolver com as empresas de IA e pressionar para serem compensados de forma justa, seja lá o que isso signifique, ou, em vez disso, resistir completamente aos acordos de licenciamento.

“Analisar essas questões me faz pensar: você preferiria ter um enxame de formigas de fogo rastejando sobre você ou rolar em uma cama de vidro quebrado?”, ele me disse. “Queremos que os músicos sejam pagos. Mas também queremos garantir que haja uma carreira na música para aqueles que virão depois de nós.”

—

Por:James O’Donnel
James é repórter de Inteligência Artificial na MIT Technology Review, especializado em análise de promessas e riscos de tecnologias como veículos autônomos, robôs cirúrgicos e chatbots.

Assine