A IA de código aberto está em toda parte atualmente. O problema é que ninguém concorda com o que ela é de fato. Agora, finalmente, podemos ter uma resposta. A Open Source Initiative (OSI), autoproclamados árbitros do que significa ser de código aberto, lançou uma definição nova, que espera ajudar os legisladores a desenvolver regulamentos para proteger os consumidores dos riscos associados à IA.
Embora a OSI tenha publicado bastante sobre o que constitui tecnologia de código aberto em outros campos, a novidade marca sua primeira tentativa de definir o termo para modelos de IA. A OSI solicitou a um grupo de 70 pessoas, formado por cientistas, advogados, legisladores e ativistas, bem como representantes de grandes empresas de tecnologia como Meta, Google e Amazon, que elaborassem a definição funcional.
Segundo o grupo, um sistema de IA de código aberto pode ser usado para qualquer finalidade sem obter permissão, e os pesquisadores devem ser capazes de inspecionar seus componentes e estudar como o sistema funciona.
Também deve ser possível modificar o modelo para qualquer propósito – inclusive alterar seus resultados – e compartilhá-lo com outras pessoas para uso, com ou sem modificações, almejando qualquer objetivo. Além disso, o padrão tenta definir um nível de transparência para os dados de treinamento, o código-fonte e os pesos de um determinado modelo.
A falta de um padrão de código aberto representava um problema. Embora saibamos que as decisões da OpenAI e da Anthropic de manter seus sistemas, conjuntos de dados e algoritmos em segredo tornam suas IAs de código fechado, alguns especialistas argumentam que os modelos de acesso livre da Meta e do Google, que podem ser inspecionados e adaptados por qualquer pessoa, também não são verdadeiramente de código aberto. Afinal, há licenças que restringem o que os usuários podem fazer com eles e falta de divulgação pública dos conjuntos de dados de treinamento. Meta, Google e OpenAI foram contatados para responder à descrição inédita, mas não responderam antes da publicação.
“Sabe-se que as empresas fazem mau uso do termo ao comercializar seus modelos”, diz Avijit Ghosh, pesquisador de políticas aplicadas da Hugging Face, uma plataforma para criar e compartilhar modelos de IA. Descrever os modelos como de código aberto pode fazer com que eles sejam vistos como mais confiáveis, mesmo que os estudiosos não possam investigar independentemente se eles, de fato, são de código aberto.
Ayah Bdeir, consultora sênior da Mozilla e participante do processo da OSI, diz que foi relativamente fácil concordar com certas partes da definição de código aberto, incluindo a necessidade de revelar os pesos dos modelos (os parâmetros que ajudam a determinar como um modelo de IA gera um resultado). Outras partes das deliberações foram mais controversas, sobretudo a questão de como os dados de treinamento devem ser públicos.
A falta de transparência sobre a origem dos dados de treinamento levou a inúmeras ações judiciais contra grandes empresas de IA, desde fabricantes de vastos modelos de linguagem, como a OpenAI, até geradores de música, como a Suno, que não divulgam muito sobre seus conjuntos de treinamento além de dizer que eles contêm “informações acessíveis ao público”. Em resposta, alguns defensores dizem que os modelos de código aberto devem divulgar todos os seus conjuntos de treinamento, um padrão que, segundo Bdeir, seria difícil de aplicar devido a questões como direitos autorais e propriedade de informações.
Em última análise, a definição nova exige que os modelos de código aberto informem sobre os dados de treinamento na medida em que “uma pessoa experiente possa recriar um sistema substancialmente equivalente, usando os mesmos dados, ou semelhantes”. Não se trata de uma exigência geral de compartilhamento de todos os conjuntos de dados de treinamento, mas também vai além do que vários sistemas proprietários ou de código aberto ostensivos fazem hoje. É um meio-termo.
“Insistir em um tipo de padrão-ouro ideologicamente primitivo, que, na verdade, não será efetivamente cumprido por ninguém, acaba saindo pela culatra”, diz Bdeir. Ela acrescenta que a OSI planeja algum tipo de mecanismo de fiscalização que identificará modelos descritos como de código aberto, mas que não atendem à sua definição. Ela também pretende divulgar uma lista de sistemas de IA que correspondam à descrição inédita. Embora nenhum esteja confirmado, os poucos modelos que devem entrar na lista são nomes relativamente pequenos, mencionados por Bdeir à MIT Technology Review, incluindo Pythia da Eleuther, OLMo da Ai2 e sistemas do coletivo de código aberto LLM360.