Simon Willison tem um plano para o fim do mundo. É um pen drive, no qual ele carregou alguns grandes modelos de linguagem (Large Language Models, ou LLMs) feitos em código aberto e que são seus favoritos. São modelos que foram compartilhados publicamente por seus criadores e que podem, em princípio, ser baixados e executados com hardware local. Se a civilização humana algum dia entrar em colapso, Willison planeja usar todo o conhecimento codificado em seus bilhões de parâmetros como ajuda. “É como ter uma versão estranha, condensada e falha da Wikipédia, para que eu possa ajudar a reiniciar a sociedade com a ajuda do meu pequeno pen drive”, ele diz.
Mas você não precisa estar se preparando para o fim do mundo para querer executar um grande modelo de linguagem no seu próprio dispositivo. Willison, que escreve um blog popular sobre modelos locais e desenvolvimento de software, tem muitos compatriotas no assunto: o r/LocalLLaMA, um sub fórum do Reddit dedicado à execução desses modelos em hardware próprio, tem meio milhão de membros, por exemplo.
Para pessoas preocupadas com a privacidade, que desejam se libertar do controle das grandes empresas, ou que simplesmente gostam de experimentar, os modelos locais oferecem uma alternativa atraente ao ChatGPT e a seus pares baseados na web.
O mundo dos grandes modelos de linguagem costumava ter uma barreira de entrada elevada: nos primeiros dias, era impossível rodar qualquer coisa útil sem investir em GPUs caras. Mas os pesquisadores tiveram tanto sucesso em reduzir e acelerar os modelos que qualquer pessoa com um laptop, ou até mesmo um smartphone, agora pode participar. “Alguns anos atrás, eu diria que computadores pessoais não são potentes o suficiente para rodar os bons modelos. Você precisaria de um rack de servidores de US$ 50.000 para executá-los”, diz Willison. “E continuaram provando, vez após vez, que eu estava errado.”
Por que você pode querer baixar o seu próprio
Entrar no mundo dos modelos locais exige um pouco mais de esforço do que, por exemplo, acessar a interface online do ChatGPT. Mas a própria acessibilidade de uma ferramenta como o ChatGPT vem com um custo. “É o ditado clássico: se algo é gratuito, você é o produto”, diz Elizabeth Seger, diretora de políticas digitais da Demos, um think tank com sede em Londres.
A OpenAI, que oferece planos pagos e gratuitos, treina seus modelos com base nas conversas dos usuários por padrão. Não é muito difícil optar por não participar desse treinamento, e também era possível remover completamente seus dados de conversa dos sistemas da OpenAI. Isto até uma decisão judicial recente, no processo em andamento do New York Times contra a OpenAI, exigir que a empresa mantivesse todas as conversas dos usuários com o ChatGPT.
O Google, que tem acesso a uma vasta quantidade de dados sobre seus usuários, também treina seus modelos com base nas interações de usuários gratuitos e pagos com o Gemini. A única maneira de optar por não participar desse treinamento é configurar o histórico de conversas para ser excluído automaticamente, o que significa que você também perde o acesso às conversas anteriores. De modo geral, a Anthropic não treina seus modelos com conversas de usuários, mas treinará com conversas que tenham sido “sinalizadas para revisão de Confiança e Segurança”.
O treinamento pode apresentar riscos particulares à privacidade devido às formas como os modelos internalizam e frequentemente reproduzem seus dados. Muitas pessoas confiam aos modelos conversas profundamente pessoais mas, se eles forem treinados com esses dados, essas interações podem não ser nem de longe tão privadas quanto os usuários imaginam, segundo alguns especialistas.
“Algumas das suas histórias pessoais podem estar incorporadas em alguns dos modelos e, eventualmente, serem despejadas em fragmentos para outras pessoas em algum lugar”, diz Giada Pistilli, principal especialista em ética da empresa Hugging Face, que mantém uma vasta biblioteca de grandes modelos e outros recursos de IA disponíveis para download gratuito.
Para Pistilli, optar por modelos locais, em vez de chatbots online, tem implicações que vão além da privacidade. “Tecnologia significa poder”, diz ela. “E, portanto, quem possui a tecnologia também detém o poder.” Governos, organizações e até indivíduos podem se sentir motivados a romper com a concentração de poder da IA nas mãos de poucas empresas executando seus próprios modelos locais.
Romper com as grandes empresas de IA também significa ter mais controle sobre sua experiência com esses modelos. Eles estão em constante mudança: em abril, o ChatGPT de repente passou a bajular os usuários muito mais do que antes e o Grok começou a se autodenominar MechaHitler no X.
Os provedores ajustam seus modelos com pouco aviso e, embora esses ajustes às vezes possam melhorar o desempenho do modelo, também podem causar comportamentos indesejados. Os grandes modelos de linguagem locais podem ter suas peculiaridades, mas ao menos são consistentes. A única pessoa que pode alterá-lo é você.
Claro, qualquer modelo que possa ser executado em um computador pessoal será menos poderoso do que as principais ofertas online das grandes empresas de IA. Mas há um benefício em trabalhar com opções mais fracas: elas podem imunizar você contra as limitações mais perniciosas de seus equivalentes maiores. Modelos pequenos podem, por exemplo, alucinar com mais frequência e de forma mais evidente do que o Claude, o GPT e o Gemini, e ver essas alucinações pode ajudá-lo a desenvolver uma consciência de como e quando os modelos maiores também podem mentir.
“Executar modelos locais é, na verdade, um exercício muito bom para desenvolver essa intuição mais ampla sobre o que essas coisas podem fazer”, diz Willison.
Como começar
LLMs locais não são apenas para programadores experientes. Se você se sente à vontade usando a interface de linha de comando do seu computador, que permite navegar por arquivos e executar aplicativos por meio de comandos de texto, o Ollama é uma ótima opção. Depois de instalar o software, você pode baixar e executar qualquer um dos centenas de modelos disponíveis com um único comando.
Se você não quer mexer em nada que sequer pareça com código, pode optar pelo LM Studio, um aplicativo que elimina grande parte das dúvidas ao executar LLMs locais. É possível navegar por modelos da Hugging Face diretamente no app, que fornece muitas informações para ajudar você a fazer a escolha certa. Alguns modelos populares e amplamente utilizados são marcados como “Escolhas da Equipe”. Cada um é rotulado de acordo com a capacidade de ser executado inteiramente na GPU rápida do seu dispositivo, de exigir compartilhamento entre a GPU e a CPU mais lenta, ou de ser grande demais para caber no seu aparelho. Depois de escolher um modelo, você pode baixá-lo, carregá-lo e começar a interagir com ele usando a interface de chat do aplicativo.
À medida que você experimentar diferentes modelos, começará a entender o que sua máquina consegue suportar. Segundo Willison, cada bilhão de parâmetros do modelo requer cerca de 1 GB de RAM para funcionar. Achei essa estimativa bastante precisa: meu próprio laptop de 16 GB conseguiu rodar o Qwen3 14B, da Alibaba, desde que eu fechasse quase todos os outros aplicativos. Se você tiver problemas de velocidade ou usabilidade, sempre pode optar por um modelo menor. Também obtive respostas razoáveis com o Qwen3 8B.
Se você for para modelos realmente pequenos, pode até executá-los no seu celular. Meu iPhone 12 surrado conseguiu rodar o Llama 3.2 1B da Meta usando um aplicativo chamado LLM Farm. Não é um modelo particularmente bom, ele rapidamente se perde em divagações bizarras e alucina o tempo todo, mas tentar conduzir algo tão caótico rumo à usabilidade pode ser divertido. Se eu estiver em um avião sem Wi-Fi e desesperado por uma resposta provavelmente errada para uma pergunta de trivia, agora sei onde procurar.
Alguns dos modelos que consegui rodar no meu laptop foram suficientemente eficazes a ponto de eu conseguir imaginá-los sendo usados no meu trabalho jornalístico. E, embora eu não ache que vá depender de modelos baseados em celular para nada tão cedo, realmente gostei de brincar com eles. “Acho que a maioria das pessoas provavelmente não precisa fazer isso e tudo bem”, diz Willison. “Mas, para as pessoas que querem fazer isso, é muito divertido”.