O último erro da OpenAI mostra os desafios enfrentados pelos modelos chineses de IA
Inteligência artificial

O último erro da OpenAI mostra os desafios enfrentados pelos modelos chineses de IA

Encontrar conjuntos de dados de alta qualidade é complicado por causa da forma como a internet da China funciona

O que você encontrará neste artigo:

Desafios emergentes do GPT-4o
Representação cultural nos tokens do GPT-4o
O desafio no treinamento da IA chinesa

Banner indicando a posição do botão de download do artigo em formato pdf

O lançamento do GPT-4o em maio, um novo “omnimodelo” de IA com o qual você pode interagir usando voz, texto ou vídeo, deveria ser um grande momento para a OpenAI. No entanto, apenas alguns dias depois, parece que a empresa está com grandes problemas. Desde a demissão da maior parte de sua equipe de segurança, até a acusação de Scarlett Johansson de que a voz dela foi replicada para o modelo sem seu consentimento, a empresa está agora no modo de controle de danos.

Somado a tudo isso, a OpenAI teve outro problema com o GPT-4o: os dados usados para treinar seu tokenizador – uma ferramenta que ajuda o modelo a analisar e processar o texto com mais eficiência – estão poluídos por sites de spam chineses. Como resultado, a biblioteca de tokens chineses do modelo está repleta de frases relacionadas a pornografia e jogos de azar. Isso pode agravar alguns problemas comuns aos modelos de IA: alucinações, desempenho ruim e uso indevido.

Escrevi sobre isso na sexta-feira seguinte ao lançamento, depois que vários pesquisadores e especialistas do setor de IA sinalizaram o problema. Eles deram uma olhada na biblioteca de tokens públicos do GPT-4o, que foi consideravelmente atualizada com o novo modelo para melhorar o suporte de idiomas que não sejam o inglês, e viram que mais de 90 dos 100 maiores tokens chineses do modelo são de sites de spam. São frases como “_vídeo pornô japonês gratuito para assistir”, “apostas em carros de corrida em Pequim” e “loteria de bem-estar da China todos os dias”.

Qualquer pessoa que leia chinês pode identificar imediatamente o problema com essa lista de tokens. É inevitável que algumas dessas frases entrem nos conjuntos de dados de treinamento, devido à popularidade do conteúdo adulto on-line, mas elas representarem 90% do vocabulário chinês usado para treinar o modelo, isso é alarmante.

Mini Banner - Assine a MIT Technology Review

“É uma situação embaraçosa, sendo chinês. Será que a qualidade dos dados [chineses] é assim mesmo? É por causa da limpeza insuficiente dos dados ou o idioma é assim mesmo?”, diz Zhengyang Geng, estudante de doutorado em ciência da computação na Universidade Carnegie Mellon.

Pode ser tentador tirar uma conclusão sobre um idioma ou uma cultura com base nos tokens que a OpenAI escolheu para o GPT-4o. Afinal, eles foram selecionados como frases relevantes e frequentemente vistas dos respectivos idiomas. Há uma publicação interessante no blog de um pesquisador de Hong Kong, chamado Henry Luo, que consultou os tokens mais longos do GPT-4o em vários idiomas diferentes e descobriu que eles parecem ter temas diferentes. Enquanto os tokens em russo refletem a linguagem sobre o governo e as instituições públicas, os tokens em japonês apresentam várias maneiras diferentes de dizer “obrigado”.

Mas, em vez de refletir as diferenças entre culturas ou países, acho que isso explica melhor o tipo de dados de treinamento que estão prontamente disponíveis on-line, e os sites que a OpenAI rastreou para alimentar o GPT-4o.

Depois que publiquei a história, Victor Shih, professor de ciências políticas da Universidade da Califórnia, em San Diego, comentou no X: “Quando você tenta não treinar com o conteúdo da mídia estatal chinesa, é isso que você consegue”.

É uma piada e, ao mesmo tempo, uma observação séria sobre os dois maiores problemas no treinamento de grandes modelos de linguagem para falar chinês: os dados prontamente disponíveis on-line, ou refletem a maneira “oficial” e sancionada de falar sobre a China ou o onipresente conteúdo de spam que abafa as conversas reais.

Na verdade, entre os poucos tokens longos em chinês no GPT-4o que não são de pornografia ou jogos de azar, dois são “socialismo com características chinesas” e “República Popular da China”. A presença dessas frases sugere que boa parte dos dados de treinamento é, na verdade, de registros da mídia estatal chinesa, onde expressões formais e longas são extremamente comuns.

Historicamente, a OpenAI tem sido muito discreta sobre os dados que usa para treinar seus modelos e provavelmente nunca nos dirá quanto de seu banco de dados de treinamento chinês é da mídia estatal, e quanto é spam. (A OpenAI não respondeu às perguntas detalhadas da MIT Technology Review enviadas no dia da última publicação).

Mas ela não é a única empresa que está enfrentando esse problema. As pessoas na China que trabalham no setor de IA concordam que há uma falta de conjuntos de dados de textos chineses de qualidade para o treinamento de LLMs. Um dos motivos é que a internet chinesa costumava ser, e em grande parte continua sendo, dividida por grandes empresas como a Tencent e a ByteDance. Elas são proprietárias da maioria das plataformas sociais e não vão compartilhar seus dados com concorrentes ou terceiros para treinar LLMs.

Banner Assine a MIT Technology Review Brasil - Escolha seu plano

Na verdade, esse também é o motivo pelo qual os mecanismos de pesquisa, inclusive o Google, são péssimos quando se trata de pesquisa em chinês. Como o conteúdo do WeChat só pode ser pesquisado no WeChat, e o conteúdo do Douyin (o TikTok chinês) só pode ser pesquisado no Douyin, esses dados não são acessíveis a um mecanismo de pesquisa de terceiros, muito menos a um LLM. Mas essas são as plataformas em que conversas humanas reais estão acontecendo, em vez de algum site de spam que continua tentando atraí-lo para jogos de azar on-line.

A falta de dados de treinamento de qualidade é um problema muito maior do que a falha em filtrar a pornografia e o absurdo geral nos dados de treinamento de token do GPT-4o. Se não houver um conjunto de dados existente, as empresas de IA precisam se esforçar bastante para identificar, obter e selecionar seus próprios conjuntos de dados e filtrar o conteúdo inadequado ou tendencioso.

Não parece que a OpenAI tenha feito isso, o que, para ser justo, faz algum sentido, já que as pessoas na China não podem usar seus modelos de IA de qualquer forma.

Ainda assim, há muitas pessoas que vivem fora da China e querem usar serviços de IA em chinês. E elas merecem um produto que funcione corretamente, tanto quanto pessoas que falam qualquer outro idioma.


Por . Yang cobre tecnologias na China e no Leste Asiático para o MIT Technology Review. Anteriormente, seus trabalhos foram publicados na Protocol, Rest of World, Columbia Journalism Review, South China Morning Post, Nikkei Asia, entre outros.

Último vídeo

Nossos tópicos