Como um circuito simples pode oferecer alternativa às GPUs que consomem muita energia
Computação

Como um circuito simples pode oferecer alternativa às GPUs que consomem muita energia

A nova abordagem criativa pode levar a um hardware de aprendizado de máquina mais eficiente em termos de energia.

O que você encontrará neste artigo:

Circuito Classifica Flores com Alta Precisão
Treinamento em pares
Uma vantagem energética em potencial

Banner indicando a posição do botão de download do artigo em formato pdf

Em uma mesa de seu laboratório na Universidade da Pensilvânia, o físico Sam Dillavou conectou uma série de placas de ensaio, por meio de uma rede de fios de cores vivas. A configuração parece um projeto de eletrônica caseira do tipo “faça você mesmo” – e não é particularmente elegante. Mas esse conjunto despretensioso, que contém 32 resistores variáveis, pode aprender a classificar dados como um modelo de aprendizado de máquina.

Embora sua capacidade atual seja rudimentar, a esperança é que o protótipo ofereça uma alternativa de baixo consumo de energia aos chips de unidade de processamento gráfico (GPU), que consomem muita energia e são amplamente utilizados no aprendizado de máquina.

“Cada resistor é simples e meio sem sentido por si só”, diz Dillavou. “Mas quando você os coloca em uma rede, pode treiná-los para fazer uma variedade de coisas.”

Uma tarefa que o circuito realizou: classificar flores por propriedades como comprimento e largura das pétalas. Quando recebeu essas medidas de flores, o circuito pôde classificá-las em três espécies de íris. Esse tipo de atividade é conhecido como um problema de classificação “linear”, pois quando as informações sobre a flor são plotadas em um gráfico, os dados podem ser divididos de forma clara nas categorias corretas, usando linhas retas. Na prática, os pesquisadores representaram as medições das flores como tensões, que alimentaram o circuito como entrada. Em seguida, o circuito produziu uma tensão de saída, que correspondia a uma das três espécies.

Essa é uma maneira fundamentalmente diferente de codificar dados em relação à abordagem usada nas GPUs, que representam as informações como 1s e 0s binários. Nesse circuito, as informações podem assumir uma voltagem máxima ou mínima, ou qualquer outra voltagem intermediária. O circuito classificou 120 íris com 95% de precisão.

Agora, a equipe conseguiu fazer com que o circuito realizasse um problema mais complexo. Em uma pré-impressão atualmente em análise, os pesquisadores mostraram que ele pode realizar uma operação lógica conhecida como XOR, na qual o circuito recebe dois números binários e determina se as entradas são iguais. Essa é uma tarefa de classificação “não linear”, diz Dillavou, e “as não linearidades são o molho secreto por trás de todo o aprendizado de máquina”.

Suas demonstrações são muito fáceis para os dispositivos que você usa todos os dias. No entanto, essa não é a questão: Dillavou e seus colegas construíram esse circuito para explorar e encontrar melhores projetos de computação. O setor de computação enfrenta um desafio existencial ao se esforçar para fornecer máquinas cada vez mais potentes. Entre 2012 e 2018, a potência de computação necessária para modelos de IA de ponta aumentou 300 mil vezes. Atualmente, o treinamento de um modelo de linguagem grande consome a mesma quantidade de energia que o consumo anual de mais de cem residências nos EUA. Dillavou espera que seu projeto ofereça uma abordagem alternativa e mais eficiente em termos de energia para criar uma IA mais rápida.

Treinamento em pares

Para executar corretamente suas várias tarefas, o circuito requer treinamento, assim como os modelos contemporâneos de aprendizado de máquina que são executados em chips de computação convencionais. O ChatGPT, por exemplo, aprendeu a gerar um texto que soa humano depois de ver muitas solicitações de texto humano real; o circuito aprendeu a prever quais medidas correspondiam a qual tipo de íris depois de ver medidas de flores rotuladas com suas espécies.

Mini Banner - Assine a MIT Technology Review

O treinamento do dispositivo envolve o uso de um segundo circuito idêntico para “instruir” o primeiro dispositivo. Ambos os circuitos começam com os mesmos valores de resistência para cada um de seus 32 resistores variáveis. Dillavou alimenta os dois circuitos com as mesmas entradas – uma tensão correspondente, por exemplo, à largura da pétala – e ajusta a tensão de saída do segundo circuito para corresponder à espécie correta. O primeiro circuito recebe feedback desse segundo circuito, e ambos ajustam suas resistências, convergindo para os mesmos valores. O ciclo começa novamente com uma nova entrada, até que os circuitos tenham se estabelecido em um conjunto de níveis de resistência que produzam a saída correta para os exemplos de treinamento. Em essência, a equipe treina o dispositivo por meio de um método conhecido como aprendizado supervisionado, em que um modelo de IA aprende com dados rotulados para prever os rótulos de novos exemplos.

Segundo Dillavou, pode ser útil pensar na corrente elétrica do circuito como a água que flui por uma rede de canos. As equações que regem o fluxo de fluidos são análogas às que regem o fluxo de elétrons e a tensão. A tensão corresponde à pressão do fluido, enquanto a resistência elétrica corresponde ao diâmetro do tubo. Durante o treinamento, os diferentes “tubos” da rede ajustam seu diâmetro em várias partes da rede para atingir a pressão de saída desejada. Na verdade, logo no início, a equipe pensou em construir o circuito com canos de água em vez de eletrônicos.

Para Dillavou, um aspecto fascinante do circuito é o que ele chama de “aprendizado emergente”. Em um ser humano, “cada neurônio está fazendo sua própria função”, diz ele. “E então, como um fenômeno emergente, você aprende. Você tem comportamentos. Você anda de bicicleta.” O circuito é semelhante. Cada resistor se ajusta de acordo com uma regra simples, mas coletivamente eles “encontram” a resposta para uma pergunta mais complicada sem nenhuma instrução explícita.

Uma vantagem energética em potencial

O protótipo de Dillavou se qualifica como um tipo de computador analógico – um que codifica informações ao longo de valores contínuos, ao invés de 1s e 0s discretos usados em circuitos digitais. Os primeiros computadores eram analógicos, mas seus equivalentes digitais os substituíram depois que os engenheiros desenvolveram técnicas de fabricação para colocar mais transistores em chips digitais para aumentar sua velocidade. Ainda assim, há muito tempo os especialistas sabem que, à medida que aumentam a potência computacional, os computadores analógicos oferecem melhor eficiência energética do que os computadores digitais, diz Aatmesh Shrivastava, engenheiro elétrico da Northeastern University. “Os benefícios da eficiência energética não estão em debate”, diz ele. Entretanto, ele acrescenta, “os sinais analógicos são muito mais ruidosos do que os digitais, o que os torna inadequados para qualquer tarefa de computação que exija alta precisão”.

Na prática, o circuito de Dillavou ainda não superou os chips digitais em termos de eficiência energética. Sua equipe calcula que o projeto utiliza cerca de 5 a 20 picojoules por resistor para gerar uma única saída, em que cada resistor representa um único parâmetro em uma rede neural. Dillavou diz que isso é cerca de um décimo da eficiência dos chips de IA de última geração. No entanto, ele confirma que a promessa da abordagem analógica está no aumento da escala do circuito, para aumentar o número de resistores e, portanto, a capacidade de computação.

Dillavou explica a possível economia de energia da seguinte forma: Os chips digitais, como as GPUs, gastam energia por operação, portanto, fabricar um chip que possa realizar mais operações por segundo significa apenas um chip que consome mais energia por segundo. Em contrapartida, o uso de energia de seu computador analógico é baseado no tempo em que ele fica ligado. Se o computador fosse duas vezes mais rápido, ele também se tornaria duas vezes mais eficiente em termos de energia.

Banner Assine a MIT Technology Review Brasil - Escolha seu plano

O circuito de Dillavou também é um tipo de computador neuromórfico, ou seja, um computador inspirado no cérebro. Assim como outros esquemas neuromórficos, o circuito dos pesquisadores não opera de acordo com instruções de cima para baixo, como faz um computador convencional. Em vez disso, os resistores ajustam seus valores em resposta ao feedback externo, em uma abordagem de baixo para cima, semelhante à forma como os neurônios respondem aos estímulos. Além disso, o dispositivo não tem um componente dedicado para a memória. Isso poderia oferecer outra vantagem em termos de eficiência energética, já que um computador convencional gasta uma quantidade significativa de energia para transportar dados entre o processador e a memória.

Embora os pesquisadores já tenham construído uma variedade de máquinas neuromórficas com base em diferentes materiais e designs, os designs mais maduros tecnologicamente são construídos com chips semicondutores. Um exemplo é o computador neuromórfico Loihi 2 da Intel, ao qual a empresa começou a fornecer acesso para pesquisadores do governo, do setor e acadêmicos, em 2021. A DeepSouth, uma máquina neuromórfica baseada em chip da Western Sydney University, projetada para simular as sinapses do cérebro humano em escala, está programada para entrar em operação este ano.

O setor de aprendizado de máquina também demonstrou interesse na computação neuromórfica baseada em chip, com uma startup de São Francisco chamada Rain Neuromorphics levantando US$ 25 milhões. Entretanto, os pesquisadores ainda não encontraram uma aplicação comercial em que a computação neuromórfica demonstre definitivamente uma vantagem sobre os computadores convencionais. Enquanto isso, pesquisadores como a equipe de Dillavou estão propondo novos esquemas para impulsionar o campo. Algumas pessoas deste mercado demonstraram interesse em seu circuito. “As pessoas estão mais interessadas no aspecto da eficiência energética”, diz Dillavou.

No entanto, seu projeto ainda é um protótipo, e sua economia de energia não foi confirmada. Para suas demonstrações, a equipe manteve o circuito em placas de ensaio porque é “o mais fácil de trabalhar e o mais rápido para mudar as coisas”, diz Dillavou, mas o formato sofre de todos os tipos de ineficiências. Eles estão testando o dispositivo em placas de circuito impresso para melhorar sua eficiência energética e planejam ampliar o projeto para que ele possa executar tarefas mais complicadas. Ainda não se sabe se a ideia inteligente deles conseguirá sair do laboratório.

Por:Sophia Chen
Sophia é jornalista de ciência que cobre assuntos ligados à computação e física.

Último vídeo

Nossos tópicos