Redes programadas diretamente em hardware de chips conseguem identificar imagens mais rapidamente e consumir muito menos energia do que as redes neurais tradicionais que sustentam a maior parte dos sistemas modernos de IA. Essa conclusão foi apresentada na conferência Neural Information Processing Systems (NeurIPS) em Vancouver.
As redes neurais, como GPT-4 e Stable Diffusion, são construídas conectando perceptrons, simulações extremamente simplificadas de neurônios cerebrais. Embora muito potentes quando usadas em larga escala, essas redes consomem enormes volumes de energia — tanto que a Microsoft chegou a firmar um acordo para reabrir a usina de Three Mile Island com o objetivo de alimentar seus avanços em IA.
Parte do problema está no fato de os perceptrons serem abstrações de software. Executar uma rede neural em uma GPU exige traduzir essas redes para o “idioma” do hardware, o que consome tempo e energia. Construir redes diretamente a partir de componentes físicos elimina muitos desses custos e, um dia, essas redes poderão ser integradas a chips usados em smartphones e outros dispositivos, reduzindo drasticamente a necessidade de enviar dados para servidores.
Felix Petersen, ex-pesquisador de pós-doutorado na Universidade Stanford, desenvolveu redes compostas por portas lógicas, os blocos básicos dos chips de computador. Cada porta lógica é formada por alguns transistores que aceitam dois bits (0s ou 1s) como entrada e, dependendo da configuração, geram um único bit como saída. Assim como perceptrons, essas portas podem ser conectadas em redes, mas seu funcionamento é muito mais barato, rápido e simples. Durante sua apresentação na NeurIPS, Petersen afirmou que redes baseadas em portas lógicas consomem centenas de milhares de vezes menos energia do que redes tradicionais baseadas em perceptrons.
Embora essas redes ainda tenham desempenho inferior às redes neurais tradicionais em tarefas como rotulagem de imagens, sua velocidade e eficiência tornam a abordagem promissora, segundo Zhiru Zhang, professor de engenharia elétrica e de computação na Universidade Cornell. “Se conseguirmos reduzir essa diferença, isso pode abrir muitas possibilidades para aplicações de aprendizado de máquina em dispositivos,” afirma Zhang.
O desenvolvimento das redes de portas lógicas surgiu do interesse de Petersen em “relaxações diferenciáveis”, uma abordagem matemática para resolver problemas complexos com o cálculo diferencial. O treinamento dessas redes não pode ser realizado diretamente com backpropagation, o algoritmo que tornou o aprendizado profundo possível, pois as portas lógicas operam apenas com 0s e 1s. Para resolver isso, Petersen criou funções que imitam o comportamento das portas lógicas, mas permitem respostas intermediárias, possibilitando o uso de backpropagation.
Contudo, treinar redes relaxadas é um processo lento e intensivo. Cada nó pode assumir uma de 16 configurações possíveis de portas lógicas, o que exige monitoramento e ajustes constantes de probabilidades, consumindo muito tempo e energia computacional. Mesmo com acesso a GPUs em Stanford e na Universidade de Konstanz, Petersen admite que o esforço torna a pesquisa extremamente desafiadora.
Uma vez treinadas, porém, as redes tornam-se extremamente baratas de operar. Petersen testou suas redes usando chips programáveis conhecidos como FPGAs, que simulam diferentes padrões de portas lógicas. Elas mostraram eficiência comparável a outras redes ultraeficientes, como as redes neurais binárias, ao classificar imagens no conjunto de dados CIFAR-10 — e com muito menos componentes. Implementar essas redes em chips ASIC, que são projetados para tarefas específicas, poderia reduzir ainda mais os custos.
Farinaz Koushanfar, professora de engenharia elétrica e de computação na Universidade da Califórnia, em San Diego, acredita que redes de portas lógicas enfrentam desafios em cenários mais complexos. “É uma ideia interessante, mas não sei como ela escalaria,” alerta. A aproximação usada para treinar essas redes pode falhar à medida que elas crescem, um problema que ainda não foi enfrentado, mas que pode surgir no futuro.
Apesar disso, Petersen mantém ambições ousadas. Ele planeja criar um “modelo de fundação em hardware” — uma rede de portas lógicas poderosa e de uso geral que poderia ser produzida em massa diretamente nos chips de computadores e integradas a dispositivos como celulares. Essa abordagem poderia trazer enormes benefícios em economia de energia. Redes desse tipo poderiam reconstruir fotos e vídeos a partir de informações de baixa resolução, reduzindo significativamente a quantidade de dados enviados entre servidores e dispositivos pessoais.
Embora reconheça que as redes de portas lógicas nunca competirão com as redes neurais tradicionais em termos de desempenho, Petersen afirma que esse não é seu objetivo. Para ele, criar algo funcional e eficiente já é suficiente. “Não será o modelo mais poderoso,” diz. “Mas será o mais barato.”