De onde vêm os dados usados para construir IA
Inteligência artificial

De onde vêm os dados usados para construir IA

Novas descobertas mostram como as fontes de dados estão concentrando poder nas mãos das empresas de tecnologia mais influentes.

A inteligência artificial (IA) é fundamentalmente baseada em dados. Quantidades gigantescas de dados são necessárias para treinar algoritmos para realizarem as tarefas desejadas, e os dados inseridos nos modelos de IA determinam os resultados obtidos. Contudo, há um problema: os desenvolvedores e pesquisadores de IA sabem muito pouco sobre as fontes dos dados que estão utilizando. As práticas de coleta de dados da IA são imaturas em comparação com o nível avançado de desenvolvimento dos modelos. Conjuntos de dados massivos frequentemente carecem de informações claras sobre o que eles contêm e de onde vieram.

A Iniciativa de Proveniência de Dados, composta por mais de 50 pesquisadores de instituições acadêmicas e do setor, buscou resolver essa questão. Eles investigaram quase 4.000 conjuntos de dados públicos abrangendo mais de 600 idiomas, 67 países e três décadas. Os dados foram extraídos de 800 fontes únicas e cerca de 700 organizações.

As descobertas, compartilhadas exclusivamente com a MIT Technology Review, mostram uma tendência preocupante: as práticas de coleta de dados para IA correm o risco de concentrar poder de forma esmagadora nas mãos de poucas empresas de tecnologia dominantes.

Na década de 2010, os conjuntos de dados vinham de uma variedade de fontes, afirma Shayne Longpre, pesquisador do MIT e membro do projeto. Eles eram coletados de enciclopédias, sites da internet, transcrições parlamentares, chamadas de resultados financeiros e relatórios meteorológicos. Naquele período, os conjuntos de dados eram cuidadosamente selecionados para tarefas específicas.

Com a invenção dos transformadores em 2017 — a arquitetura base dos modelos de linguagem —, o desempenho da IA começou a melhorar quanto maiores eram os modelos e os conjuntos de dados. Desde 2018, a internet tornou-se a principal fonte para a construção de conjuntos de dados em todas as mídias, incluindo áudio, imagens e vídeos. Isso criou uma disparidade crescente entre dados raspados da web e conjuntos mais bem organizados.

“No desenvolvimento de modelos de fundação, nada parece importar mais para as capacidades do que a escala e a heterogeneidade dos dados da web”, diz Longpre. A busca por escala também aumentou enormemente o uso de dados sintéticos.

Nos últimos anos, surgiram modelos generativos multimodais, que podem criar vídeos e imagens. Como os modelos de linguagem, eles precisam de grandes volumes de dados, e a principal fonte para isso tem sido o YouTube. Em modelos de vídeo, mais de 70% dos dados vêm de uma única fonte, beneficiando enormemente o Google, proprietário da plataforma.

Isso levanta questões sobre como a empresa usará sua vantagem no mercado e se permitirá acesso igualitário a competidores, aponta Sarah Myers West, codiretora do AI Now Institute.

Mini Banner - Assine a MIT Technology Review

Restrições ocultas e desafios éticos

Empresas de IA geralmente não divulgam os dados usados para treinar seus modelos. Isso ocorre porque os conjuntos de dados são frequentemente complexos e opacos, dificultando rastrear suas origens e as restrições legais sobre seu uso. Além disso, acordos exclusivos com publicadores e plataformas reforçam ainda mais o poder das grandes empresas.

Esses contratos criam barreiras que limitam o acesso a pesquisadores, organizações sem fins lucrativos e pequenas empresas, tornando o cenário mais desigual. “Estamos vendo uma nova onda de acesso assimétrico que não existia nessa escala na web aberta”, diz Longpre.

O viés ocidental nos dados

A pesquisa revelou que mais de 90% dos conjuntos de dados analisados vêm da Europa e América do Norte, enquanto menos de 4% têm origem na África. Esse desequilíbrio reflete-se em modelos de IA que priorizam culturas e idiomas ocidentais, o que pode reforçar vieses e apagar perspectivas de outras regiões e culturas.

“Estamos utilizando esses modelos globalmente, mas há uma discrepância massiva entre o mundo que vemos e o que está invisível para esses modelos”, conclui Sara Hooker, vice-presidente de pesquisa na Cohere.

Por:

Melissa é repórter sênior da MIT Technology Review, cobrindo assuntos ligados à Inteligência Artificial e como ela está mudando nossa sociedade.

Último vídeo

Nossos tópicos