O que vem por aí na IA chinesa de código aberto
Inteligência artificial

O que vem por aí na IA chinesa de código aberto

Eles estão se espalhando rapidamente, do Hugging Face ao Vale do Silício. Eis por que isso importa

O ano de 2025 marcou um ponto de inflexão para a Inteligência Artificial chinesa. Desde que a DeepSeek lançou seu modelo de raciocínio R1, em janeiro do ano passado, empresas têm repetidamente entregue modelos que igualam o desempenho dos principais concorrentes ocidentais por uma fração do custo.

Mini Banner - Assine a MIT Technology Review

No começo de fevereiro deste ano, a empresa chinesa Moonshot AI lançou seu mais recente modelo de pesos abertos, Kimi K2.5, que se aproximou de sistemas proprietários de ponta, como o Claude Opus, da Anthropic, em alguns benchmarks iniciais. A diferença é que o K2.5 custa aproximadamente um sétimo do preço do Opus.

No Hugging Face, a família Qwen, da Alibaba, após se classificar como a série de modelos mais baixada em 2025 e 2026, ultrapassou os modelos Llama, da Meta, em downloads acumulados. E um estudo recente do MIT constatou que os modelos chineses de código aberto superaram os modelos dos Estados Unidos em downloads totais. Para desenvolvedores e construtores no mundo todo, o acesso a capacidades de IA próximas à fronteira nunca foi tão amplo nem tão acessível.

Mas esses modelos diferem, de um modo crucial, da maioria dos estadunidenses, como o ChatGPT ou o Claude, pelos quais você paga para acessar, e não pode inspecionar. As empresas chinesas publicam os pesos de seus modelos, valores numéricos que são definidos quando um deles é treinado, de modo que qualquer pessoa possa baixá-los, executá-los, estudá-los e modificá-los.

Se esses modelos de IA de código aberto continuarem melhorando, eles não oferecerão apenas as opções mais baratas para pessoas que querem alcançar a fronteira das capacidades da tecnologia; eles mudarão onde a inovação acontece e quem define os padrões.

Eis o que pode vir a seguir.

O compromisso da China com o código aberto vai continuar

Quando a DeepSeek lançou o R1, grande parte do choque inicial se concentrou em sua origem. De repente, uma equipe chinesa havia lançado um modelo de raciocínio que podia estar ao lado dos melhores sistemas de laboratórios dos Estados Unidos. Mas o efeito de cauda longa do impacto da DeepSeek tinha menos a ver com nacionalidade do que com distribuição. O R1 foi lançado como um modelo de pesos abertos sob uma

licença MIT permissiva, permitindo que qualquer pessoa o baixasse, inspecionasse-o e o implantasse. Além disso, a DeepSeek também publicou um artigo detalhando seu processo de treinamento e técnicas. Para desenvolvedores que acessam modelos via uma API, a DeepSeek também derrubou o preço em relação aos concorrentes, oferecendo acesso por uma fração do custo do o1 da OpenAI, o principal modelo de raciocínio proprietário na época.

Em poucos dias após seu lançamento, a DeepSeek substituiu o ChatGPT como o aplicativo gratuito mais baixado dos EUA. O momento transbordou além dos círculos de desenvolvedores e chegou aos mercados financeiros, desencadeando uma forte liquidação em ações de tecnologia no país que, por um breve período, apagou aproximadamente 1 trilhão de dólares em valor de mercado. Quase da noite para o dia, a DeepSeek passou de uma equipe derivada pouco conhecida, apoiada por um fundo de cobertura quantitativo, ao símbolo mais visível do impulso da China por IA de código aberto.

A aposta da potência asiática não é surpreendente. O país tem a segunda maior concentração de talentos na área do mundo, depois dos EUA, além de uma indústria de tecnologia vasta e bem abastecida de recursos. Depois que o ChatGPT entrou no mainstream, o setor de IA da China passou por um acerto de contas e saiu dele determinado a alcançar os líderes. Adotar uma estratégia de código aberto foi visto como a forma mais rápida de fechar a lacuna, mobilizando desenvolvedores, espalhando adoção e definindo padrões.

O sucesso da DeepSeek injetou confiança em um setor há muito acostumado a seguir padrões globais, em vez de defini-los. “Trinta anos atrás, nenhuma pessoa chinesa acreditaria que poderia estar no centro da inovação global”, diz Alex Chenglin Wu, CEO e fundador da Atoms, uma empresa de agentes de IA e colaborador proeminente do ecossistema de código aberto da China. “A DeepSeek mostra que, com talento técnico sólido, um ambiente de apoio e a cultura organizacional certa, é possível fazer um trabalho, verdadeiramente, de classe mundial.”

O momento de destaque da DeepSeek não foi o primeiro sucesso de código aberto da China. O Qwen Lab, da Alibaba, vinha lançando modelos de pesos abertos havia anos. Em setembro de 2024, bem antes do lançamento do V3 da DeepSeek, a Alibaba dizia que os downloads globais haviam ultrapassado 600 milhões. No Hugging Face, o Qwen respondeu por mais de 30% de todos os downloads de modelos em 2024. Outras instituições, incluindo a Academia de Inteligência Artificial de Pequim e a empresa de IA Baichuan, também vinham lançando modelos abertos desde 2023.

Mas, desde o sucesso da DeepSeek, o campo se ampliou rapidamente. Empresas como Z.ai (anteriormente Zhipu) MiniMax e Tencent, além de um número crescente de laboratórios menores, lançaram modelos que são competitivos em tarefas de raciocínio, programação e no estilo de agentes. O número crescente de modelos capazes acelerou o progresso. Capacidades que antes levavam meses para chegar ao mundo do código aberto agora surgem em semanas, até em dias.

“As empresas chinesas de IA têm visto ganhos reais com o manual do código aberto”, diz Liu Zhiyuan, professor de ciência da computação na Universidade Tsinghua, e cientista-chefe da startup de IA ModelBest. “Ao divulgar pesquisas fortes, elas constroem reputação e ganham publicidade gratuita.”

Além de incentivos comerciais, diz Liu, o código aberto ganhou peso cultural e estratégico. “Na comunidade chinesa de programadores, o código aberto se tornou politicamente correto”, afirma, enquadrando isso como uma resposta ao domínio dos EUA em sistemas proprietários de IA.

Essa mudança também se reflete no nível institucional. Universidades, incluindo a Tsinghua, começaram a incentivar o seu desenvolvimento, enquanto formuladores de políticas passaram a formalizar esses incentivos. Em agosto de 2025, o Conselho de Estado da China divulgou um rascunho de política incentivando universidades a recompensar trabalho de código aberto, propondo que as contribuições de estudantes em plataformas como GitHub ou Gitee poderiam, eventualmente, ser contabilizadas para crédito acadêmico.

Com o impulso crescente e um ciclo de retroalimentação de reforço, a pressão da China por modelos de código aberto provavelmente continuará no curto prazo, embora sua sustentabilidade de longo prazo ainda dependa de resultados financeiros, diz Tiezhen Wang, que ajuda a liderar o trabalho sobre IA global no Hugging Face. Em janeiro, os laboratórios de modelos Z.ai e MiniMax abriram capital em Hong Kong. “Agora, o foco é fazer o bolo ficar maior”, diz Wang. “O próximo desafio é descobrir como cada empresa garante sua fatia.”

A próxima onda de modelos será mais restrita e melhor

Os modelos chineses de código aberto estão liderando não apenas em volume de downloads, mas também em variedade. O Qwen, da Alibaba, tornou-se uma das famílias de modelos abertos mais diversificadas em circulação, oferecendo uma ampla gama de variantes otimizadas para diferentes usos. A linha vai de modelos leves, que podem rodar em um único laptop, a sistemas grandes, com várias centenas de bilhões de parâmetros, projetados para implantação em data centers. O Qwen apresenta muitas variantes otimizadas para tarefas criadas pela comunidade: os modelos “instruct” são bons em seguir instruções, e as variantes “code” se especializam em programação.

Embora essa estratégia não seja exclusiva de laboratórios chineses, o Qwen foi a primeira família de modelos abertos a lançar tantas opções de alta qualidade que começou a parecer uma linha de produtos completa, e gratuita.

A natureza de pesos abertos desses lançamentos também facilita que outros os adaptem por meio de técnicas como ajuste fino e destilação, que significam, basicamente, treinar um modelo menor para imitar um maior. De acordo com o projeto American Truly Open Models, do pesquisador Nathan Lambert, até 4 de agosto de 2025, as variações de modelos derivadas do Qwen representavam “mais de 40%” dos novos derivados de modelos de linguagem no Hugging Face, enquanto o Llama havia caído para cerca de 15%. Isso significa que o Qwen se tornou o modelo-base padrão para todos os “remixes”.

Esse padrão fortaleceu o argumento a favor de modelos menores e mais especializados. “Computação e energia são restrições reais para qualquer implantação”, diz Liu. Ele disse à MIT Technology Review que o crescimento dos modelos pequenos trata de tornar a IA mais barata para operar e mais fácil de usar para mais pessoas. Sua empresa, ModelBest, concentra-se em pequenos modelos de linguagem projetados para rodar localmente em dispositivos como telefones, carros e outros hardwares de consumo.

Enquanto um usuário médio pode interagir apenas por meio da web ou de um aplicativo para conversas simples, aqueles mais avançados, com alguma formação técnica, estão experimentando dar mais autonomia à IA para resolver problemas em grande escala. O OpenClaw, um agente de código aberto que recentemente se tornou viral no mundo dos hackers, permite que a IA assuma o controle do seu computador e pode funcionar 24 horas por dia, 7 dias por semana, examinando seus e-mails e tarefas de trabalho, sem supervisão.

O OpenClaw, como muitas outras ferramentas de código aberto, permite que os usuários se conectem a diferentes modelos de IA por meio de uma interface de programação de aplicativos, ou API. Em poucos dias após o lançamento do OpenClaw, a equipe revelou que o Kimi K2.5 havia superado o Claude Opus e se tornado o modelo de IA mais utilizado, por contagem de tokens, o que significa que estava lidando com mais texto total processado entre prompts dos usuários e respostas do modelo.

O custo tem sido um dos principais motivos pelos quais os modelos chineses ganharam tração, mas seria um erro tratá-los como meras “cópias” dos sistemas de ponta ocidentais, sugere Wang. Como qualquer produto, um modelo só precisa ser bom o suficiente para a tarefa em questão.

O panorama dos modelos de código aberto na China também está se tornando mais especializado. Grupos de pesquisa como o Shanghai AI Laboratory lançaram modelos voltados para tarefas científicas e técnicas; vários projetos da Tencent concentraram- se especificamente na geração de música. A Ubiquant, uma empresa de finanças quantitativas como a High-Flyer, controladora da DeepSeek, lançou um modelo aberto voltado para raciocínio médico.

Enquanto isso, ideias arquitetônicas inovadoras de laboratórios chineses estão sendo adotadas de forma mais ampla. A DeepSeek publicou trabalhos explorando a eficiência e a memória dos modelos; técnicas que comprimem o “cache” de atenção do modelo, reduzindo custos de memória e de inferência enquanto preservam em grande parte o desempenho, atraíram atenção significativa na comunidade científica.

“O impacto desses avanços de pesquisa é ampliado porque eles são de código aberto, e podem ser rapidamente adotados em todo o setor”, diz Wang.

Modelos abertos chineses se tornarão infraestrutura para construtores globais de IA

A adoção deles também está aumentando no Vale do Silício. Martin Casado, sócio-geral da Andreessen Horowitz, colocou um número nisso: entre startups que apresentam propostas com pilhas de código aberto, há cerca de 80% de chance de estarem rodando sobre modelos abertos chineses, de acordo com uma publicação que ele fez no X. Dados de uso contam uma história semelhante. A OpenRouter, um intermediário que rastreia como as pessoas usam diferentes modelos de IA por meio de sua API, mostra os modelos abertos chineses subindo de “quase nada”, no fim de 2024, para quase 30% do uso, em algumas semanas recentes.

A demanda também está crescendo globalmente. A Z.ai limitou novas assinaturas de seu plano de programação GLM, uma ferramenta de programação baseada em seus modelos principais GLM, após a demanda disparar, citando restrições de capacidade computacional. O que é notável é de onde vem a demanda: a CNBC relata que a base de usuários do sistema está principalmente concentrada nos Estados Unidos e na China, seguida por Índia, Japão, Brasil e Reino Unido.

“Os ecossistemas de código aberto na China e nos Estados Unidos estão fortemente interligados”, diz Wang, da Hugging Face. Muitos modelos abertos chineses ainda dependem da Nvidia e de plataformas de nuvem dos EUA para serem treinados e disponibilizados, o que mantém as relações comerciais entrelaçadas. O talento também é fluido: pesquisadores se movem entre fronteiras e empresas, e muitos ainda operam como uma comunidade global, compartilhando código e ideias em público.

Essa interdependência é parte do que faz os desenvolvedores chineses se sentirem otimistas neste momento: o trabalho circula, é remixado e, de fato, aparece em produtos. Mas a abertura também pode acelerar a competição. Dario Amodei, CEO da Anthropic, apresentou uma versão desse argumento após os lançamentos de 2025 da DeepSeek. Ele escreveu que controles de exportação “não são uma forma de evitar a competição” entre os Estados Unidos e a China, e que as empresas de IA nos EUA “precisam ter modelos melhores” se quiserem prevalecer.

Na última década, a história da tecnologia chinesa no Ocidente foi marcada por grandes expectativas que esbarraram em escrutínio, restrições e reação política. Desta vez, a exportação não é apenas um aplicativo ou uma plataforma de consumo. É a camada subjacente de modelos sobre a qual outras pessoas constroem. Se isso se desenrolará de maneira diferente, ainda é uma questão em aberto.

Último vídeo

Nossos tópicos