Tudo o que você precisa saber sobre como estimar a carga de energia e emissões da IA
EnergyEnergy Summit

Tudo o que você precisa saber sobre como estimar a carga de energia e emissões da IA

Aqui está como a MIT Technology Review navegou por uma mistura de dados e variáveis ocultas para calcular a demanda energética individual e coletiva da Inteligência Artificial

O modelo de IA da OpenAI e empresas que lidam com “modelos de código fechado” geralmente oferecem acesso aos seus sistemas por meio de uma interface onde você faz uma pergunta e recebe uma resposta. O que acontece nesse processo, qual data center no mundo processa sua solicitação, a quantidade de energia necessária para isso e a intensidade de carbono das fontes de energia usadas continua sendo um segredo, conhecido apenas pelas empresas. Existem poucos incentivos para que elas divulguem essa informação, e até agora, a maioria não o fez.

Por isso, para nossa análise, olhamos para modelos de código aberto. Eles servem como um proxy imperfeito, mas é o melhor que temos (a OpenAI, Microsoft e Google se recusaram a compartilhar informações específicas sobre o uso de energia de seus modelos de código fechado).

As melhores fontes para medir o consumo de energia dos modelos de IA de código aberto são AI Energy Score, ML.Energy e MLPerf Power. A equipe do ML.Energy nos auxiliou com nossos cálculos de modelos de texto e imagem, e a equipe do AI Energy Score ajudou com nossos cálculos de modelos de vídeo.

Modelos de Texto

Os modelos de IA consomem energia em duas fases: quando eles aprendem com grandes quantidades de dados, chamados de treinamento, e quando respondem a consultas, chamados de inferência. Quando o ChatGPT foi lançado alguns anos atrás, o foco estava no treinamento, enquanto as empresas de tecnologia competiam para construir modelos cada vez maiores. Mas agora, a inferência é onde a maior parte da energia é consumida.

A maneira mais precisa de entender quanta energia um modelo de IA usa na fase de inferência é medir diretamente a quantidade de eletricidade usada pelo servidor que lida com a solicitação. Os servidores contêm todos os tipos de componentes — processadores gráficos (GPUs), responsáveis pelo maior volume de processamento, outros chips chamados CPUs, ventoinhas para manter o sistema resfriado e mais. Os pesquisadores geralmente medem a quantidade de energia que a GPU consome e estimam o restante.

Para isso, nos voltamos para o candidato a PhD Jae-Won Chung e o professor associado Mosharaf Chowdhury da Universidade de Michigan, que lideram o projeto ML.Energy. Depois de coletarmos os dados sobre o uso de energia da GPU para diferentes modelos com sua equipe, tivemos que estimar quanta energia é utilizada para outros processos, como o resfriamento.

Analisamos a literatura de pesquisa, incluindo um artigo de 2024 da Microsoft, para entender quanto da demanda total de energia de um servidor é responsável pelas GPUs. Descobrimos que elas representam cerca da metade. Então, pegamos a estimativa de energia da GPU da equipe e a duplicamos para ter uma ideia da demanda total de energia.

A equipe do ML.Energy usa um lote de 500 prompts de um conjunto de dados maior para testar os modelos. O hardware é mantido constante; a GPU é um chip popular da Nvidia, chamado H100. Decidimos focar em três tamanhos de modelos da família Meta Llama: pequeno (8 bilhões de parâmetros), médio (70 bilhões) e grande (405 bilhões). Também identificamos uma seleção de prompts para testar. Comparamos esses com as médias para o lote inteiro de 500 prompts.

Modelos de Imagem

O Stable Diffusion 3 da Stability AI é um dos modelos de geração de imagem de código aberto mais utilizados, então ele se tornou nosso foco. Embora tenhamos testado vários tamanhos do modelo de texto Meta Llama, focamos em um dos tamanhos mais populares do Stable Diffusion 3, com 2 bilhões de parâmetros.

A equipe usa um conjunto de dados de prompts de exemplo para testar os requisitos de energia de um modelo. Embora a energia usada por modelos de linguagem grande seja determinada parcialmente pelo prompt, isso não é verdade para modelos de difusão.

Modelos de difusão podem ser programados para passar por um número prescrito de “etapas de remoção de ruído” quando geram uma imagem ou vídeo, com cada passo sendo uma iteração do algoritmo que adiciona mais detalhes à imagem. Para um número determinado de passos e modelo, todas as imagens geradas têm o mesmo consumo energético

Quanto mais passos, maior a qualidade do resultado, mas também mais energia consumida. O número de passos varia conforme o modelo e a aplicação, mas 25 é bastante comum, e foi o que usamos para nossa qualidade padrão. Para qualidade mais alta, usamos 50 passos.

Mencionamos que as GPUs geralmente são responsáveis por cerca de metade da demanda de energia para requisições de modelos de linguagem de grande porte. Não há pesquisas suficientes para saber como isso muda para modelos de difusão que geram imagens e vídeos. Na ausência de uma estimativa melhor, e após consultar pesquisadores, optamos por manter essa regra de 50% também para imagens e vídeos.

Modelos de vídeo

Chung e Chowdhury testam modelos de vídeo, mas apenas aqueles que geram GIFs curtos e de baixa qualidade. Não acreditamos que os vídeos produzidos por esses modelos atinjam a qualidade do vídeo gerado por IA que muitas pessoas estão acostumadas a ver.

Em vez disso, recorremos a Sasha Luccioni, líder de IA e clima na Hugging Face, que dirige o projeto AI Energy Score. Ela mede a energia consumida pela GPU durante as requisições de IA. Escolhemos duas versões do modelo CogVideoX para testar: uma versão mais antiga e de resolução reduzida e uma versão mais nova e de qualidade superior.

Pedimos a Luccioni que usasse sua ferramenta, chamada Code Carbon, para testar ambos e medir os resultados de um conjunto de prompts de vídeo que selecionamos, usando o mesmo hardware dos nossos testes de texto e imagem para controlar ao máximo as variáveis. Ela reportou as demandas de energia da GPU, que novamente dobramos para estimar as demandas totais de energia.

Rastreando de onde vem essa energia

Depois de entender quanto de energia é necessário para responder a uma consulta, podemos traduzir isso para o impacto total nas emissões. Para fazer isso, é necessário olhar para a rede elétrica da qual os data centers retiram sua eletricidade.

Determinar o impacto climático da rede pode ser complicado, pois, embora interconectada, sua operação varia localmente. Imagine a rede como um sistema de canais conectados e reservatórios de água. As usinas de energia adicionam água aos canais, e os usuários de eletricidade, ou cargas, retiram-na. Nos EUA, as interconexões da rede se estendem por todo o país. Portanto, de certa forma, estamos todos conectados, mas também podemos dividir a rede em seus componentes individuais para entender como as fontes de energia variam pelo país.

Entendendo a intensidade de carbono

A principal métrica para entender aqui é chamada de intensidade de carbono, que basicamente mede quantos gramas de dióxido de carbono são liberados para cada quilowatt-hora de eletricidade produzida.

Para obter as cifras de intensidade de carbono, entramos em contato com a Electricity Maps, uma startup dinamarquesa que coleta dados sobre redes ao redor do mundo. A equipe coleta informações de fontes como governos e concessionárias e usa esses dados para publicar estimativas históricas e em tempo real da intensidade de carbono das redes.

A empresa compartilhou conosco dados históricos de 2024, tanto para os EUA como um todo quanto para algumas autoridades de balanceamento chave. Após discussões com o fundador da Electricity Maps, Olivier Corradi, e outros especialistas, tomamos algumas decisões sobre quais dados usaríamos em nossos cálculos.

Uma maneira de medir a intensidade de carbono é simplesmente olhar para todas as usinas de energia que estão operando na rede, somar emissões que geram no momento e dividir esse total pela eletricidade que estão gerando. Mas isso não leva em conta as emissões associadas à construção e destruição das usinas de energia, que podem ser significativas. Portanto, optamos por usar números de intensidade de carbono que consideram todo o ciclo de vida de uma usina de energia.

Escolhemos também usar a intensidade de carbono baseada no consumo de energia, em vez de baseada na produção. Esse valor leva em consideração as importações e exportações de energia entre diferentes partes da rede e representa da melhor forma a eletricidade que está sendo usada, em tempo real, dentro de uma região específica.

Para a maioria dos cálculos apresentados na matéria, usamos a intensidade média de carbono dos EUA para 2024, de acordo com o Electricity Maps, que é de 402,49 gramas de dióxido de carbono equivalente por quilowatt-hora.

Entendendo as autoridades de balanceamento

Embora entender o panorama geral dos EUA possa ser útil, a rede elétrica pode ser muito diferente em diferentes locais.

Uma forma de segmentar isso é analisando as autoridades de balanceamento. Essas são entidades independentes responsáveis pelo balanceamento da rede em uma região específica. Elas operam majoritariamente de forma independente, embora haja um constante movimento de eletricidade entre elas também. Existem 66 autoridades de balanceamento nos EUA, e podemos calcular a intensidade de carbono para a parte da rede coberta por uma autoridade de balanceamento específica.

O Electricity Maps forneceu dados de intensidade de carbono para algumas autoridades de balanceamento chave, e nos concentramos em várias que desempenham papéis importantes nas operações de data centers. O ERCOT (que cobre a maior parte do Texas) e o PJM (um agrupamento de estados na Costa Leste, incluindo Virgínia, Pensilvânia e New Jersey) são algumas das regiões com a maior carga de data centers, de acordo com uma pesquisa da Harvard School of Public Health.

Adicionamos o CAISO (na Califórnia) porque cobre o estado mais populoso dos EUA. O CAISO também gerencia uma rede com uma quantidade significativa de fontes de energia renováveis, tornando-se um bom exemplo de como a intensidade de carbono pode mudar drasticamente dependendo da hora do dia (no meio do dia, a energia solar tende a dominar, enquanto o gás natural desempenha um papel maior durante a noite, por exemplo).

Uma observação importante aqui é que não temos total certeza de onde as empresas tendem a enviar as solicitações individuais de inferência de IA. Existem aglomerados de data centers nas regiões que escolhemos como exemplos, mas quando você usa o modelo de IA de um gigante da tecnologia, sua solicitação pode ser processada por qualquer número de data centers de propriedade ou contratados pela empresa. Uma aproximação razoável é a localização: é provável que o data center que atende a uma solicitação esteja próximo de onde ela foi feita, então uma solicitação na Costa Oeste tenha maior probabilidade de ser processada a um data center naquele lado do país.

Explicando o que encontramos

Para contextualizar melhor nossos cálculos, introduzimos algumas comparações que as pessoas talvez conheçam melhor do que quilowatt-hora e gramas de dióxido de carbono. Em alguns pontos, pegamos a quantidade de eletricidade estimada para ser usada por um modelo e calculamos quanto tempo essa eletricidade seria capaz de alimentar um micro-ondas padrão, além de calcular até onde alguém poderia ir em uma bicicleta elétrica.

No caso da bicicleta elétrica, assumimos uma eficiência de 25 watts-horas por milha, o que está na faixa dos valores comumente citados para uma bicicleta com assistência ao pedal. Para o micro-ondas, assumimos um modelo de 800 watts, o que está dentro da faixa média dos EUA.

Também fizemos uma comparação para contextualizar as emissões de gases de efeito estufa: milhas dirigidas em um carro à gasolina. Para isso, usamos dados da Agência de Proteção Ambiental dos EUA, que coloca a economia de combustível média ponderada dos veículos nos EUA em 2022 em 393 gramas de dióxido de carbono equivalente por milha.

Mini Banner - Assine a MIT Technology Review

Prevendo quanta energia a IA vai consumir no futuro

Após medir a demanda de energia de uma consulta individual e as emissões que ela gerou, era hora de estimar como tudo isso se somava à demanda nacional.

Existem duas maneiras de fazer isso. Em uma análise de baixo para cima, você estima quantas consultas individuais existem, calcula as demandas de energia de cada uma e as soma para determinar o total. Para uma análise de cima para baixo, você estima quanta energia todos os data centers estão usando observando tendências macro.

A análise de baixo para cima é particularmente difícil, porque, mais uma vez, empresas com código fechado não compartilham essas informações e se recusaram a falar sobre detalhes conosco. Embora possamos fazer algumas suposições embasadas para nos dar uma ideia do que pode estar acontecendo agora, olhar para o futuro talvez seja mais adequada uma abordagem de cima para baixo.

Esses dados também são escassos. O relatório mais importante foi publicado em dezembro pelo Lawrence Berkeley National Laboratory, que é financiado pelo Departamento de Energia, e os autores do relatório notaram que esse é apenas o terceiro do tipo liberado nos últimos 20 anos.

Pesquisadores acadêmicos de clima e energia com os quais conversamos disseram que é um grande problema o fato de a IA não ser considerada seu próprio setor econômico para medições de emissões, e que não haja exigências rigorosas de relatórios. Como resultado, é difícil acompanhar o impacto climático da IA.

Ainda assim, examinamos os resultados do relatório, comparamos com outras descobertas e estimativas, e consultamos especialistas independentes sobre os dados. Embora grande parte do relatório tenha sido sobre data centers de forma geral, destacamos pontos de dados específicos para o futuro da IA.

Objetivos das empresas

Queríamos contrastar esses números com as quantidades de energia que as próprias empresas de IA afirmam precisar. Para isso, coletamos relatórios de empresas líderes de tecnologia e IA sobre seus planos para expansão de energia e data centers, assim como os valores em dólares que prometeram investir. Onde possível, verificamos as promessas feitas nessas alegações (as promessas da Meta e Microsoft de usar mais energia nuclear, por exemplo, realmente reduziriam as emissões de carbono das empresas, mas levará anos, senão décadas, para que essas plantas nucleares adicionais entrem em operação).

Solicitações às empresas

Enviamos solicitações para Microsoft, Google e OpenAI para ter conversas baseadas em dados sobre as demandas de energia dos seus modelos para a inferência de IA. Nenhuma das empresas disponibilizou executivos ou líderes para entrevistas oficiais sobre seu uso de energia.

Último vídeo

Nossos tópicos