DeepSeek: O modelo que desafia o ChatGPT

A comunidade de IA está entusiasmada com o DeepSeek R1, um novo modelo de raciocínio de código aberto.

O modelo foi desenvolvido pela startup chinesa de IA DeepSeek, que afirma que o R1 iguala ou até supera o ChatGPT o1 da OpenAI em vários benchmarks (métricas, padrões ou conjuntos de testes) importantes, mas opera por uma fração do custo.

“Este pode ser um avanço verdadeiramente equalizador, ótimo para pesquisadores e desenvolvedores com recursos limitados, especialmente aqueles do Sul Global”, diz Hancheng Cao, professor assistente em sistemas de informação na Emory University.

O sucesso da DeepSeek é ainda mais notável, dadas as restrições enfrentadas pelas empresas chinesas de IA, cujas importações de chips de ponta são controladas pelos EUA. Mas as primeiras evidências mostram que essas medidas não estão funcionando como pretendido. Em vez de enfraquecer as capacidades de IA da China, as sanções parecem estar levando startups como a DeepSeek a inovar de maneiras que priorizam a eficiência, o agrupamento de recursos e a colaboração.

De acordo com Zihan Wang, ex-funcionário da DeepSeek e atual aluno de doutorado em ciência da computação na Northwestern University, para criar o R1, a DeepSeek teve que retrabalhar seu processo de treinamento para reduzir a pressão sobre suas GPUs, uma variedade lançada pela Nvidia para o mercado chinês que tem seu desempenho limitado à metade da velocidade usual de seus principais produtos.

O DeepSeek R1 foi elogiado por pesquisadores por sua capacidade de lidar com tarefas complexas de raciocínio, particularmente em matemática e codificação. O modelo emprega uma abordagem de “cadeia de pensamento” semelhante à usada pelo ChatGPT o1, que permite resolver problemas processando consultas passo a passo.

Dimitris Papailiopoulos, pesquisador principal do laboratório de pesquisa AI Frontiers da Microsoft, diz que o que mais o surpreendeu sobre o R1 é sua simplicidade de engenharia. “O DeepSeek buscou respostas precisas em vez de detalhar cada etapa lógica, reduzindo significativamente o tempo de computação e mantendo um alto nível de eficácia”, diz ele.

O DeepSeek também lançou seis versões menores do R1 que são pequenas o suficiente para rodar localmente em laptops. Ele afirma que uma delas até supera o o1-mini da OpenAI em certos benchmarks. “O DeepSeek replicou amplamente o o1-mini e o tornou de código aberto”, tuitou o CEO da Perplexity, Aravind Srinivas. O DeepSeek não respondeu ao pedido de comentários da MIT Technology Review.

Apesar do burburinho em torno do R1, o DeepSeek continua relativamente desconhecido. Com sede em Hangzhou, China, foi fundado em julho de 2023 por Liang Wenfeng, um ex-aluno da Universidade de Zhejiang com formação em engenharia eletrônica e dae informação. Foi incubado pela High-Flyer, um fundo de hedge que Liang fundou em 2015. Como Sam Altman da OpenAI, Liang visa construir inteligência geral artificial geral (AGI), uma forma de IA que pode igualar ou até mesmo vencer humanos em uma série de tarefas.

Treinar modelos de linguagem grandes (LLMs) requer uma equipe de pesquisadores altamente treinados e poder de computação substancial. Em uma entrevista recente com a agência chinesa de comunicação LatePost, Kai-Fu Lee, um empreendedor veterano e ex-chefe do Google China, disse que apenas “jogadores de primeira linha” normalmente se envolvem na construção de modelos de base como o ChatGPT, pois ele consome muitos recursos. A situação é ainda mais complicada em razão dos controles de exportação dos EUA sobre semicondutores avançados. A decisão da High-Flyer de se aventurar em IA está diretamente relacionada a essas restrições, no entanto. Muito antes das sanções previstas, Liang adquiriu um estoque substancial de chips Nvidia A100, um tipo agora proibido de exportar para a China. A agência chinesa de comunicação 36Kr estima que a empresa tenha mais de 10.000 unidades em estoque, mas Dylan Patel, fundador da consultoria de pesquisa de IA SemiAnalysis, estima que tenha pelo menos 50.000. Reconhecer o potencial desse estoque para treinamento de IA foi o que levou Liang a criar a DeepSeek, que conseguiu usá-los em combinação com chips de menor potência para desenvolver seus modelos.

Gigantes da tecnologia como Alibaba e ByteDance, assim como um punhado de startups com investidores de bolsos fundos, dominam o espaço de IA chinês, tornando desafiador para pequenas ou médias empresas competir. Uma empresa como a DeepSeek, que não tem planos de levantar fundos, é rara.

Zihan Wang, ex-funcionário da DeepSeek, disse à MIT Technology Review que teve acesso a abundantes recursos de computação e teve liberdade para experimentar quando trabalhava na DeepSeek, “um luxo que poucos recém-formados teriam em qualquer empresa”.

Em uma entrevista com a 36Kr em julho de 2024, Liang disse que um desafio adicional que as empresas chinesas enfrentam além das sanções de chips é que suas técnicas de engenharia de IA tendem a ser menos eficientes. “Nós [a maioria das empresas chinesas] temos que consumir o dobro do poder de computação para atingir os mesmos resultados. Combinado com lacunas de eficiência de dados, isso pode significar precisar de até quatro vezes mais poder de computação. Nosso objetivo é fechar essas lacunas continuamente”, disse ele.

Mas a DeepSeek encontrou maneiras de reduzir o uso de memória e acelerar o cálculo sem sacrificar significativamente a precisão. “A equipe adora transformar um desafio de hardware em uma oportunidade de inovação”, diz Wang.

O próprio Liang continua profundamente envolvido no processo de pesquisa da DeepSeek, executando experimentos com sua equipe. “Toda a equipe compartilha uma cultura colaborativa e dedicação à pesquisa hardcore”, diz Wang.

Além de priorizar a eficiência, as empresas chinesas estão cada vez mais adotando princípios de código aberto. A Alibaba Cloud lançou mais de 100 novos modelos de IA de código aberto, com suporte para 29 idiomas e atendendo a vários aplicativos, incluindo codificação e matemática. Da mesma forma, startups como Minimax e 01.AI tornaram seus modelos de código aberto.

De acordo com um white paper lançado no ano passado pela Academia Chinesa de Tecnologia da Informação e Comunicação – , um instituto de pesquisa afiliado ao estado –, o número de grandes modelos de linguagem de IA no mundo chegou a 1.328, com 36% originários da China. Isso posiciona a China como o segundo maior contribuidor para IA, atrás dos Estados Unidos.

“Esta geração de jovens pesquisadores chineses se identifica fortemente com a cultura de código aberto porque eles se beneficiam muito dela”, diz Thomas Qitong Cao, professor assistente de política tecnológica na Universidade Tufts.

“O controle de exportação dos EUA encurralou essencialmente as empresas chinesas em um canto onde elas têm que ser muito mais eficientes com seus recursos de computação limitados”, diz Matt Sheehan, pesquisador de IA no Carnegie Endowment for International Peace. “Provavelmente veremos muita consolidação no futuro relacionada à falta de computação.”

Isso pode já ter começado a acontecer. Duas semanas atrás, a Alibaba Cloud anunciou que fez uma parceria com a startup 01.AI, sediada em Pequim, fundada por Kai-Fu Lee, para unir equipes de pesquisa e estabelecer um “laboratório de modelos industriais de grande porte”.

“É energeticamente eficiente e natural que algum tipo de divisão de trabalho surja na indústria de IA”, diz Cao, o professor da Tufts. “A rápida evolução da IA exige agilidade das empresas chinesas para sobreviver.”

Autor

Compartilhar

Tags

Newsletter

Compartilhar

Último vídeo

Nossos tópicos

Newsletter

Artigos mais lidos