Quatro razões para ser otimista sobre o consumo de energia no uso de IA
EnergyEnergy Summit

Quatro razões para ser otimista sobre o consumo de energia no uso de IA

Ainda que haja motivos para preocupação com o impacto climático, nem tudo está perdido. 

No dia seguinte à sua posse em janeiro, o presidente Donald Trump anunciou o Stargate, uma iniciativa de US$ 500 bilhões para expandir a infraestrutura de inteligência artificial, com apoio de algumas das maiores empresas de tecnologia. O Stargate visa acelerar a construção de enormes data centers e redes elétricas pelos Estados Unidos, a fim de garantir a vantagem sobre a China.

A abordagem do tipo “faça o que for preciso” pela supremacia global em IA foi o assunto do Fórum Econômico Mundial, segundo Raquel Urtasun, fundadora e CEO da startup canadense de caminhões autônomos Waabi, referindo-se ao evento anual realizado em janeiro na Suíça, na mesma semana do anúncio de Trump. “Estou bastante preocupada com os rumos do setor”, diz Urtasun.

Ela não está sozinha. “Estão sendo investidos bilhões, GPUs (unidade de processamento gráfico) estão sendo queimadas, água está sendo evaporada é simplesmente a direção errada”, diz Ali Farhadi, CEO do Allen Institute for AI, uma organização sem fins lucrativos sediada em Seattle.

Mas, ao filtrar as conversas sobre custos crescentes e impactos climáticos, surgem razões para esperança. Há inovações em andamento que podem melhorar a eficiência dos softwares de IA, dos chips que executam esses softwares e dos data centers que mantêm esses chips funcionando 24 horas por dia.

Aqui está o que você precisa saber sobre como o uso de energia e, portanto, as emissões de carbono, pode ser reduzido nessas três frentes, além de um argumento adicional para otimismo cauteloso: há razões para acreditar que a lógica comercial acabará se inclinando para uma IA mais eficiente energeticamente.

1. Modelos mais eficientes

O ponto de partida mais óbvio são os próprios modelos, a forma como são criados e executados.

Modelos de IA são construídos por meio do treinamento de redes neurais com grandes volumes de dados. Modelos de linguagem são treinados com vastas quantidades de texto; modelos de direção autônoma, com dados de direção, e assim por diante.

Mas esses dados costumam ser coletados de forma indiscriminada. Modelos de linguagem são treinados com textos extraídos de grande parte da internet e de grandes bibliotecas de livros escaneados. A prática tem sido reunir tudo o que estiver disponível e ver o que acontece. Essa abordagem já funcionou, mas treinar repetidamente um modelo com conjuntos massivos de dados para que ele mesmo descubra padrões relevantes desperdiça tempo e energia.

Pode haver um caminho mais eficiente. Crianças não aprendem apenas lendo tudo que já foi escrito, elas seguem um currículo focado. Urtasun defende que façamos o mesmo com a IA, treinando modelos com dados mais selecionados, direcionados para tarefas específicas. (A Waabi treina seus caminhões autônomos dentro de uma simulação super-realista, com controle refinado sobre os dados virtuais apresentados.)

E não é só a Waabi. A startup Writer, que desenvolve modelos de linguagem para empresas, afirma que seus modelos são mais baratos de treinar e operar em parte porque utilizam dados sintéticos. Alimentar os modelos com conjuntos de dados personalizados, em vez de grandes volumes menos filtrados, acelera o treinamento (e o torna mais barato). Por exemplo, em vez de simplesmente baixar a Wikipedia, a equipe da Writer reescreve os conteúdos das páginas em diferentes formatos, como, por exemplo, perguntas e respostas, para que seus modelos aprendam mais com menos.

O treinamento é apenas o começo do ciclo de vida desse sistema. Com o aumento do tamanho dos modelos, seu custo operacional também cresceu. Modelos de raciocínio, que seguem etapas antes de gerar uma resposta, consomem ainda mais energia ao calcular sub-respostas intermediárias. Estima-se que o modelo o3 da OpenAI custe até US$ 30 mil por tarefa.

Mas essa tecnologia ainda é nova e experimental. Farhadi prevê que os custos vão cair em breve. Por exemplo, engenheiros poderão evitar que modelos de raciocínio avancem demais por caminhos sem saída. “A primeira vez que se faz algo é muito mais caro. Depois, aprendemos a reduzir e tornar mais eficiente”, diz ele. “É uma tendência bem constante em tecnologia.”

Uma maneira de obter ganhos de desempenho sem grandes aumentos de consumo é realizar os passos de inferência em paralelo, ou seja, dividir uma tarefa e executar partes dela simultaneamente. Essa computação paralela, base da maioria dos softwares modernos, pode gerar resultados mais rápidos e eficientes, exigindo apenas algoritmos novos e inteligentes para coordenar as subtarefas.

Os modelos mais potentes não serão usados o tempo todo. Há cada vez mais discussões sobre modelos compactos, que seriam versões reduzidas de modelos grandes. Em muitos casos, esses modelos menores funcionam tão bem quanto os maiores, especialmente em tarefas específicas.

Conforme as empresas descobrem onde os modelos de linguagem são úteis (ou não), essa tendência de modelos especializados cresce. “Haverá muitos modelos especializados, não um modelo divino que resolva tudo”, afirma Farhadi.

Christina Shim, diretora de sustentabilidade da IBM, observa essa tendência entre seus clientes. Ela ajuda empresas a escolher modelos pequenos e menos consumidores de energia. “Nem sempre o maior modelo é o melhor investimento”, diz. “Não precisamos usar uma marreta para pregar um prego.”

2. Chips de computador mais eficientes

À medida que o software se torna mais enxuto, o hardware onde ele roda também tende a ficar mais eficiente. Há uma tensão nesse ponto: no curto prazo, empresas como a Nvidia correm para desenvolver chips cada vez mais potentes, atendendo à demanda de companhias que querem executar modelos mais poderosos. Mas essa corrida não é sustentável no longo prazo.

“Os modelos ficaram tão grandes que até mesmo a execução de inferência se tornou um desafio”, diz Naveen Verma, cofundador e CEO da fabricante de microchips EnCharge AI.

Empresas como Microsoft e OpenAI estão perdendo dinheiro para manter seus modelos funcionando em data centers e atender à demanda de milhões de pessoas. Modelos menores ajudarão. Outra possibilidade é transferir o processamento para os dispositivos dos usuários.

Essa foi a ideia da Microsoft com a iniciativa Copilot+ PC, que promoveu PCs turbinados capazes de executar modelos de IA localmente (e arcar com os custos de energia). A adesão foi baixa, mas Verma acredita que esse movimento continuará, já que as empresas vão querer reduzir os custos de operação.

Fazer modelos de IA (mesmo os menores) rodarem de forma confiável nos dispositivos dos usuários exige mudanças nos chips. Eles precisam ser ainda mais eficientes energeticamente, já que funcionam a bateria, diz Verma.

É aí que entra a EnCharge. Sua solução é um novo tipo de chip que abandona a computação digital tradicional e adota a computação analógica em memória. Em vez de representar dados com 0s e 1s, os chips analógicos usam um espectro de valores entre 0 e 1, o que, em teoria, permite fazer mais com a mesma energia.

A EnCharge surgiu do laboratório de Verma em Princeton, em 2022. “Sabemos há décadas que a computação analógica pode ser muito mais eficiente, em ordens de magnitude mais eficiente, que a digital”, afirma. Mas os computadores analógicos costumavam cometer muitos erros. Verma e seus colegas encontraram uma maneira de torná-los precisos.

A startup está focada apenas no núcleo computacional necessário à IA atual. Com apoio de gigantes como a TSMC, a EnCharge desenvolve chips capazes de realizar multiplicações de matrizes em alta dimensão, a base da matemática do aprendizado profundo em modo analógico, e repassar os resultados para o sistema digital ao redor.

O hardware da EnCharge é um entre muitos projetos experimentais de chips promissores. IBM e outros exploram há anos a computação neuromórfica, que busca imitar a eficiência do cérebro humano. Outra vertente são os chips ópticos, que trocam elétrons por luz, reduzindo o consumo de energia. Nenhum desses projetos compete ainda com os chips digitais eletrônicos da Nvidia, mas, à medida que cresce a demanda por eficiência, essas alternativas ganham força.

Não são apenas os chips que podem ser mais eficientes. Boa parte da energia usada por computadores é gasta no transporte de dados. A IBM afirma ter criado um novo tipo de chave óptica, um dispositivo que controla o tráfego digital, 80% mais eficiente que os anteriores.

3. Resfriamento mais eficiente nos data centers

Outra grande fonte de demanda de energia é a necessidade de gerenciar o calor residual produzido pelo hardware no qual os modelos de IA são executados. Tom Earp, diretor de engenharia da empresa de design Page, está construindo data centers desde 2006, incluindo uma passagem de seis anos na Meta. Earp busca eficiência em tudo, desde a estrutura do prédio até o fornecimento elétrico, os sistemas de resfriamento e a forma como os dados são transferidos para dentro e para fora.

Por mais de uma década, à medida que a Lei de Moore começou a desacelerar, os projetos de data centers foram bastante estáveis, diz Earp. E então tudo mudou. Com a mudança para processadores como as GPUs, e com novos designs de chips no horizonte, é difícil prever que tipo de hardware um novo data center precisará abrigar e, portanto, que demandas energéticas ele terá que suportar daqui a alguns anos. Mas, no curto prazo, a aposta segura é que os chips continuarão ficando mais rápidos e mais quentes: “O que vejo é que as pessoas que têm que tomar essas decisões estão planejando para um grande aumento na quantidade de energia que vamos precisar”, diz Earp.

Uma coisa é clara: os chips que executam os modelos de IA, como as GPUs, precisam de mais potência por unidade de espaço do que os chips de computador anteriores. E isso tem grandes implicações para a infraestrutura de resfriamento dentro de um data center. “Quando a energia aumenta, o calor aumenta,” diz Earp.

Com tantos chips de alta potência comprimidos juntos, o resfriamento a ar, com grandes ventiladores, já não é suficiente. A água se tornou a forma de refrigeração preferida porque é melhor que o ar para diminuir o calor. Isso não é uma boa notícia para as fontes de água em torno dos data centers. Mas existem maneiras de tornar o resfriamento com o recurso mais eficiente.

Uma opção é usar a água para enviar o calor residual de um data center para lugares onde ele possa ser utilizado. Na Dinamarca, a água dos data centers tem sido usada para aquecer casas. Em Paris, durante os Jogos Olímpicos, foi usada para aquecer piscinas.

A água também pode servir como um tipo de bateria. A energia gerada por fontes renováveis, como turbinas eólicas ou painéis solares, pode ser usada para resfriar a água que é armazenada, até que seja necessário usá-la para resfriar os computadores posteriormente, o que reduz o consumo de energia nos horários de pico.

Mas à medida que os data centers ficam mais quentes, o resfriamento com água sozinho não é suficiente, diz Tony Atti, CEO da Phononic, uma startup que fornece chips de resfriamento especializados. Os fabricantes de chips estão criando chips que transferem dados cada vez mais rápido. Ele aponta para a Nvidia, que está prestes a lançar um chip que processa 1,6 terabytes por segundo: “Com essa taxa de dados, tudo sai do controle e a demanda por resfriamento sobe exponencialmente,” diz ele.

De acordo com Atti, os chips dentro dos servidores consomem cerca de 45% da energia de um data center. Mas resfriar esses chips agora consome quase tanta energia, cerca de 40%. “Pela primeira vez, o gerenciamento térmico está se tornando o limitador para a expansão dessa infraestrutura de IA,” diz ele.

Os chips de resfriamento da Phononic são pequenos dispositivos termelétricos que podem ser colocados sobre ou perto do hardware que precisa de resfriamento. Quando você alimenta um chip LED, ele emite fótons; quando alimenta um chip termelétrico, ele emite fônons (que são para energia vibracional, ou temperatura, o que os fótons são para a luz). Em resumo, os chips fônicos empurram o calor de uma superfície para outra.

Comprimidos em espaços apertados dentro e ao redor dos servidores, esses chips podem detectar aumentos minúsculos de calor e ligar e desligar para manter uma temperatura estável. Quando estão ligados, eles empurram o calor excessivo para um tubo de água para ser retirado. Atti diz que eles também podem ser usados para aumentar a eficiência dos sistemas de resfriamento existentes. Quanto mais rápido você conseguir resfriar a água em um data center, menos dela você precisará.

4. Cortar custos vai de mãos dadas com reduzir o uso de energia

Apesar da explosão no uso de energia pela IA, há razão para ser otimista. A sustentabilidade muitas vezes é vista como algo secundário ou desejável. Mas com a IA, a melhor maneira de reduzir os custos gerais é cortar sua conta de energia. Isso é uma boa notícia, pois deve incentivar as empresas a aumentarem a eficiência. “Acho que temos um alinhamento entre sustentabilidade climática e sustentabilidade de custos,” diz Verma. “Acho que, no final das contas, isso se tornará o grande motor que empurrará a indústria a ser mais eficiente em termos energéticos.”

Shim concorda: “É apenas bom negócio, sabe?”

As empresas serão forçadas a pensar seriamente sobre como e quando usam IA, escolhendo opções menores e sob medida sempre que possível, ela diz: “Veja o mundo agora. Os gastos com tecnologia, como tudo o mais, vão ser ainda mais críticos daqui para frente.”

Mini Banner - Assine a MIT Technology Review

Shim acha que as preocupações em torno do uso de energia da IA são válidas. Mas ela aponta para o crescimento da internet e o boom dos computadores pessoais há 25 anos. À medida que a tecnologia por trás dessas revoluções melhorou, os custos de energia permaneceram mais ou menos estáveis, apesar de o número de usuários ter disparado, diz ela.

É uma regra geral que Shim acredita que se aplicará também desta vez: quando a tecnologia amadurece, ela se torna mais eficiente. “Acho que é onde estamos agora com a IA,” ela diz.

A IA está rapidamente se tornando uma mercadoria, o que significa que a concorrência no mercado vai fazer os preços caírem. Para continuar no jogo, as empresas vão buscar reduzir o uso de energia, pelo menos pelo bem de seu lucro.

No final, o capitalismo pode nos salvar depois de tudo.

Último vídeo

Nossos tópicos