A DeepSeek pode ter encontrado uma nova forma de melhorar a capacidade de memória da IA
Inteligência artificial

A DeepSeek pode ter encontrado uma nova forma de melhorar a capacidade de memória da IA

Em vez de usar tokens de texto, a empresa chinesa de IA está compactando informações em imagens

Um modelo de IA lançado pela empresa chinesa DeepSeek utiliza novas técnicas que podem melhorar significativamente a capacidade de “memória” da Inteligência Artificial.

Mini Banner - Assine a MIT Technology Review

Lançado na semana passada, o modelo de reconhecimento óptico de caracteres (OCR) funciona extraindo texto de uma imagem e convertendo-o em palavras legíveis por máquina. Essa é a mesma tecnologia que alimenta aplicativos de digitalização, tradução de texto em fotos e muitas ferramentas de acessibilidade.

O OCR já é um campo maduro, com inúmeros sistemas de alto desempenho, e, segundo o artigo e algumas análises iniciais, o novo modelo da DeepSeek apresenta resultados comparáveis aos dos principais modelos nos principais testes de referência.

Mas os pesquisadores afirmam que a principal inovação do modelo está na forma como ele processa informações — especificamente, como armazena e recupera memórias. Melhorar a maneira como os modelos de IA “lembram” informações pode reduzir a quantidade de poder computacional necessária para sua execução, mitigando, assim, a grande (e crescente) pegada de carbono da IA.

Atualmente, a maioria dos grandes modelos de linguagem divide o texto em milhares de pequenas unidades chamadas tokens. Isso transforma o texto em representações que os modelos podem compreender. No entanto, esses tokens rapidamente se tornam caros para armazenar e processar à medida que as conversas com os utilizadores finais se prolongam. Quando um utilizador conversa com uma IA por longos períodos, esse desafio pode fazer com que a IA esqueça informações que lhe foram fornecidas e confunda dados, um problema que alguns chamam de “apodrecimento de contexto” (context rot).

Os novos métodos desenvolvidos pela DeepSeek (e publicados no seu artigo mais recente) podem ajudar a superar esse problema. Em vez de armazenar palavras como tokens, o sistema compacta as informações escritas em formato de imagem, quase como se tirasse uma fotografia das páginas de um livro. Isso permite que o modelo retenha praticamente a mesma informação utilizando muito menos tokens, conforme descobriram os investigadores.

Essencialmente, o modelo de OCR serve como um campo de testes para esses novos métodos que permitem que mais informações sejam incorporadas em modelos de IA de forma mais eficiente.

Além de usar tokens visuais em vez de apenas tokens de texto, o modelo é construído com base num tipo de compressão em camadas que se assemelha ao modo como as memórias humanas se dissipam: conteúdos mais antigos ou menos críticos são armazenados de forma ligeiramente mais difusa, para poupar espaço. Apesar disso, afirmam os autores do artigo, esse conteúdo comprimido ainda pode permanecer acessível em segundo plano, mantendo um elevado nível de eficiência do sistema.

Os tokens de texto há muito são o bloco de construção padrão nos sistemas de IA. Utilizar tokens visuais em seu lugar é algo pouco convencional e, como resultado, o modelo da DeepSeek está rapidamente chamando a atenção dos pesquisadores. Andrej Karpathy, ex-chefe de IA da Tesla e membro fundador da OpenAI, elogiou o artigo no X, afirmando que as imagens podem, em última análise, ser melhores do que o texto como entradas para os LLMs. Os tokens de texto podem ser “ineficientes e simplesmente terríveis como entrada”, escreveu ele.

Manling Li, professora assistente de ciência da computação na Universidade Northwestern, afirma que o artigo oferece uma nova estrutura para lidar com os desafios existentes na memória da IA. “Embora a ideia de usar tokens baseados em imagens para armazenamento de contexto não seja inteiramente nova, este é o primeiro estudo que vi levar isso tão longe e mostrar que realmente pode funcionar”, diz Li.

O método pode abrir novas possibilidades na pesquisa e nas aplicações de IA, especialmente na criação de agentes de IA mais úteis, afirma Zihan Wang, doutorando na Universidade Northwestern. Ele acredita que, como as conversas com a IA são contínuas, essa abordagem pode ajudar os modelos a reter mais informações e a auxiliar os utilizadores de forma mais eficaz.

A técnica também pode ser usada para gerar mais dados de treino para modelos de IA. Atualmente, os desenvolvedores de modelos enfrentam uma escassez severa de textos de qualidade para treinar seus sistemas. Mas o artigo da DeepSeek afirma que o sistema de OCR da empresa pode gerar mais de 200.000 páginas de dados de treino por dia em uma única GPU.

O modelo e o artigo, no entanto, são apenas uma exploração inicial do uso de tokens de imagem em vez de tokens de texto para a memorização em IA. Li afirma esperar ver os tokens visuais aplicados não apenas ao armazenamento de memória, mas também ao raciocínio. Trabalhos futuros, segundo ela, devem explorar maneiras de fazer a memória da IA desvanecer-se de forma mais dinâmica — semelhante à forma como conseguimos recordar um momento marcante de anos atrás, mas esquecemos o que comemos no almoço da semana passada. Atualmente, mesmo com os métodos da DeepSeek, a IA tende a esquecer e lembrar de maneira muito linear — recordando o que é mais recente, mas não necessariamente o que é mais importante, diz ela.

Apesar das suas tentativas de manter um perfil discreto, a DeepSeek, sediada em Hangzhou, na China, construiu uma reputação por impulsionar a fronteira da pesquisa em IA. A empresa surpreendeu o setor no início deste ano com o lançamento do DeepSeek-R1, um modelo de raciocínio de código aberto que rivalizou em desempenho com os principais sistemas ocidentais, apesar de utilizar muito menos recursos computacionais.

Último vídeo

Nossos tópicos