Geoffrey Hinton tem um palpite sobre o futuro da Inteligência Artificial

Em novembro passado, o cientista da computação e psicólogo cognitivo Geoffrey Hinton tinha um palpite. Depois de meio século de tentativas — algumas com grande sucesso — ele chegou a outra ideia promissora sobre como o cérebro funciona e como replicar seus circuitos em um computador.

“É minha melhor aposta atual sobre como as coisas se encaixam”, disse Hinton de seu escritório em Toronto, onde está confinado durante a pandemia. Se sua aposta estiver certa, ela pode desencadear a próxima geração de redes neurais artificiais: sistemas de computação matemática, vagamente inspirados pelos neurônios e sinapses do cérebro, que estão no cerne da inteligência artificial de hoje. Sua “motivação verdadeira”, como ele diz, é a curiosidade. Mas a motivação prática, e, idealmente, a consequência, é uma IA mais confiável e eficaz.

Como membro do grupo de engenharia do Google e cofundador do Vector Institute for Artificial Intelligence, Hinton escreveu sua ideia aos trancos e, no final de fevereiro, anunciou em seu Twitter que ele havia publicado um artigo de 44 páginas no servidor de pré-impressão, o arXiv. Ele começa o texto com um aviso: “Este documento não descreve um sistema de trabalho”. Em vez disso, apresenta um “sistema imaginário”. Ele o nomeou como “GLOM”. O termo deriva da palavra “aglomerado” e da expressão em inglês glom together, que significaria agrupamento ou aderir um ao outro.

Hinton pensa no GLOM como uma forma de modelar a percepção humana em uma máquina — ele oferece uma nova maneira de processar e representar informações visuais em uma rede neural. Em um nível técnico, a sua base consiste em um agrupamento de vetores semelhantes. Vetores são fundamentais para as redes neurais: um vetor é uma matriz de números que codifica a informação. O exemplo mais simples são as coordenadas xyz de um ponto: três números que indicam onde ele está no espaço tridimensional. Um vetor de seis dimensões contém mais três informações, por exemplo, os valores de vermelho-verde-azul para a cor do ponto. Em uma rede neural, vetores em centenas ou milhares de dimensões representam imagens ou palavras inteiras. E em dimensões ainda maiores, Hinton acredita que o que acontece em nosso cérebro envolve “grandes vetores de atividade neural”.

Por analogia, Hinton compara seu agrupamento de vetores semelhantes à dinâmica de uma câmara de eco, que amplifica crenças semelhantes. “Uma câmara de eco é um desastre completo para a política e a sociedade, mas para as redes neurais é ótima”, diz Hinton. Quando aplicadas no contexto de redes neurais, a noção de câmaras de eco mapeadas é o que Hinton chama de “ilhas de vetores idênticos”, ou mais informalmente, “ilhas de concordância”: quando os vetores concordam sobre a natureza de suas informações, eles apontam na mesma direção.

“Se as redes neurais fossem mais parecidas com pessoas, pelo menos estariam erradas da mesma forma que elas, e aí teríamos uma ideia do que poderia confundi-las”. Geoffrey Hinton.

Em essência, o GLOM também atinge o objetivo vago de modelar a intuição: Hinton acredita que ela seja crucial para a percepção e a define como nossa capacidade de fazer analogias sem esforço. Desde a infância ao longo de nossas vidas, entendemos o mundo usando o raciocínio analógico, mapeando semelhanças de um objeto, ideia ou conceito para outro, ou, como Hinton o vê, de um grande vetor para outro. “Semelhanças de grandes vetores explicam como as redes neurais realizam raciocínio analógico intuitivo”, diz ele. De um modo geral, a intuição captura aquela forma indescritível pela qual o cérebro humano gera conhecimento. O próprio Hinton trabalha muito intuitivamente; cientificamente, é guiado pela intuição e pela criação de analogias. E sua teoria de como o cérebro funciona tem a ver com intuição. E afirma: “Sou muito coerente”.

Hinton espera que o GLOM seja um daqueles avanços necessários para que a IA seja capaz de resolver problemas com agilidade, com o tipo de pensamento humano que permitiria a um sistema ser capaz de dar sentido a coisas nunca antes encontradas; aproveitar as semelhanças de experiências passadas, brincar com as ideias, generalizar, extrapolar, compreender. E afirma: “Se as redes neurais fossem mais parecidas com as pessoas, pelo menos estariam erradas da mesma forma que elas, e assim teríamos uma ideia do que poderia confundi-las”.

No entanto, até o momento, o GLOM nada mais é do que intuição: é “vaporware”, segundo Hinton. Ou seja, um software anunciado por um desenvolvedor muito antes do seu lançamento. E ele reconhece que, como uma sigla, o GLOM se encaixa muito bem com a ideia “Geoff’s Last Original Model” (em tradução livre,O Último Modelo Original de Geoff). É, pelo menos, seu modelo mais recente.

Fora da caixa

A devoção de Hinton às redes neurais artificiais (uma invenção de meados do século 20) data do início dos anos 1970. Em 1986, ele fez um progresso considerável: enquanto as redes inicialmente compreendiam apenas algumas camadas de neurônios, entrada e saída, Hinton e colaboradores criaram uma técnica para uma rede mais profunda e com várias camadas. Mas levou 26 anos até que o poder computacional e a capacidade de dados fossem alcançados e capitalizados nessa arquitetura tão profunda.

Em 2012, Hinton ganhou fama e riqueza graças a uma grande descoberta no deep learning. Com dois alunos, ele implementou uma rede neural de várias camadas que foi treinada para reconhecer objetos em grandes conjuntos de dados de imagens. A rede neural aprendeu a melhorar iterativamente tanto a classificação quanto a identificação de vários objetos, como por exemplo, um ácaro, um cogumelo, uma scooter, um gato de Madagascar. E teve um desempenho inesperadamente espetacular.

O deep learning deu início à mais recente revolução da IA transformando a visão computacional e o campo como um todo. Hinton acredita que o deep learning deve ser quase tudo o que é necessário para replicar totalmente a inteligência humana.

Mas, apesar do rápido progresso, ainda existem grandes desafios. Exponha uma rede neural a um conjunto de dados desconhecido ou a um ambiente estranho, e ela se revela frágil e inflexível. Carros autônomos e geradores de linguagem de texto impressionam, mas as coisas podem dar errado. Os sistemas visuais de IA podem ser facilmente confundidos: uma xícara de café reconhecida de lado seria um objeto desconhecido se vista de cima caso o sistema não tivesse sido treinado naquele ângulo de visão; e com a manipulação de alguns pixels, um panda pode ser confundido com um avestruz, ou mesmo um ônibus escolar.

O GLOM foca em dois dos problemas mais difíceis para sistemas de percepção visual: compreender uma cena inteira em termos de objetos e suas partes naturais; e reconhecer objetos quando vistos de um novo ângulo. (O foco do GLOM está no aspecto visual, mas Hinton espera que a ideia possa ser aplicada à linguagem também.)

Um objeto como o rosto de Hinton, por exemplo, é composto por seus olhos vivos, mas cansados (muitas pessoas fazendo perguntas e pouco sono), sua boca e orelhas, e um nariz grande, com cabelos um pouco desgrenhados e quase todos grisalhos. E graças ao seu nariz, é fácil reconhecê-lo, mesmo à primeira vista de perfil.

Ambos os fatores, a relação entre as partes de um todo e o ponto de vista, segundo Hinton, são cruciais para a forma como os humanos enxergam. “Se o GLOM funcionar, terá uma percepção muito mais semelhante à humana do que as redes neurais atuais”, diz ele.

Agrupar partes em conjuntos, no entanto, pode ser um problema difícil para os computadores, já que as partes às vezes são ambíguas. Um círculo pode ser um olho, uma rosquinha ou uma roda. Como Hinton explicou, a primeira geração de sistemas de visão de IA tentou reconhecer objetos com base principalmente na geometria da relação entre as partes e o todo: a orientação espacial somente entre as partes e entre as partes e o todo. Em vez disso, a segunda geração contou principalmente com o deep learning, deixando que a rede neural treinasse em grandes quantidades de dados. Com o GLOM, Hinton combina os melhores aspectos de ambas as abordagens.

“Há uma certa humildade intelectual de que gosto nisso”, diz Gary Marcus, fundador e CEO da Robust.AI e um conhecido crítico da forte dependência no deep learning. Marcus admira a disposição de Hinton de desafiar algo que lhe trouxe fama ao admitir que não está funcionando muito bem. “É corajoso”, diz ele. “E é uma ótima recuperação dizer: ‘Estou tentando pensar fora da caixa’.”

A arquitetura do GLOM

Na elaboração do GLOM, Hinton tentou modelar alguns dos atalhos mentais (estratégias intuitivas ou heurísticas) que as pessoas usam para dar sentido ao mundo. “O GLOM, e de fato muito do trabalho de Geoff, tenta analisar as heurísticas que as pessoas parecem ter, construir redes neurais que podem ser baseadas nelas e então mostrar que, como resultado, as redes têm um desempenho melhor em termos visuais”, diz Nick Frosst, um cientista da computação em uma startup de idiomas em Toronto que trabalhou com Hinton no Google Brain.

Com a percepção visual, uma estratégia é analisar partes de um objeto, como diferentes características faciais, e, assim, compreender o todo. Se você ver um nariz, poderá reconhecê-lo como parte do rosto de Hinton; é a hierarquia das partes e do todo. Para construir um sistema de visão melhor, Hinton afirma: “Tenho uma forte intuição de que precisamos usar as hierarquias das partes e do todo”. Os cérebros humanos entendem essa composição das partes de um todo graças à criação do que é chamado de “árvore de análise sintática”, um diagrama ramificado que demonstra a relação hierárquica entre um objeto como um todo, suas partes e subpartes. O rosto em si fica no topo da árvore, e os olhos, nariz, orelhas, e forma da boca, nos ramos abaixo.

Uma das principais metas de Hinton com o GLOM é replicar a árvore de análise em uma rede neural, isso iria distingui-lo de redes neurais que vieram antes. Por razões técnicas, é algo difícil de realizar. “É difícil porque cada pessoa analisa uma imagem individual usando uma análise de árvore única, então gostaríamos que uma rede neural fizesse o mesmo. É difícil conseguir que algo com uma arquitetura estática, como uma rede neural, adote uma nova estrutura, uma árvore de análise, para cada nova imagem que você vê”. Hinton fez várias tentativas. O GLOM é uma grande revisão de sua tentativa anterior de 2017, combinada com outros avanços relacionados ao campo.

“Eu sou parte de um nariz!” Vetor GLOM

MS TECH | EVIATAR BACH VIA WIKIMEDIA

Uma maneira generalizada de pensar sobre a arquitetura GLOM é a seguinte: A imagem de interesse (digamos, uma fotografia do rosto de Hinton) é dividida em uma grade. Cada região da grade é um “local” na imagem: um local pode conter a íris de um olho, enquanto outro pode conter a ponta do nariz. Para cada local na rede, existem cerca de cinco camadas ou níveis. E nível a nível, o sistema faz uma previsão, com um vetor representando o conteúdo ou a informação. Em um nível mais baixo, o vetor que representa a localização da ponta do nariz pode predizer: “Eu sou parte de um nariz!” E no nível seguinte, ao construir uma representação mais coerente do que está vendo, o vetor pode prever: “Sou parte de um rosto em ângulo lateral!”

Mas então a questão é: os vetores vizinhos no mesmo nível concordam? Quando em acordo, os vetores apontam na mesma direção, para a mesma conclusão: “Sim, ambos pertencemos ao mesmo nariz”. Ou em um nível mais acima na árvore de análise. “Sim, nós dois pertencemos ao mesmo rosto”.

Por fim, para chegar a um consenso sobre a natureza de um objeto, sobre o que ele exatamente é, os vetores GLOM iterativamente, localização por localização e camada sobre camada, criam a média com os vetores vizinhos próximos uns dos outros, junto aos vetores superiores e vetores adivinhados de nível inferior.

No entanto, a rede não tem uma “média indiscriminada” com nada próximo, explica Hinton. Crie a média seletivamente, com previsões vizinhas mostrando algumas semelhanças. E detalha: “Isso é bem conhecido nos Estados Unidos, é chamado de câmara de eco. Consiste em aceitar apenas as opiniões de quem já concorda conosco; e aí o que acontece é que se cria uma câmara de eco onde muitas pessoas têm exatamente a mesma opinião. O GLOM usa essa abordagem de forma construtiva”. No sistema Hinton, o fenômeno análogo são essas “ilhas de concordância”.

“Geoff é um pensador altamente incomum …” Sue Becker

“Imagine um grupo de pessoas em uma sala, gritando ligeiras variações da mesma ideia”, diz Frosst, ou imagine essas pessoas como vetores apontando em pequenas variações na mesma direção. “Depois de um tempo, eles convergiriam para uma ideia e todos sentiriam essa convicção com mais intensidade, porque teriam a confirmado com as outras pessoas ao redor”, acrescenta. É assim que os vetores GLOM reforçam e amplificam suas previsões coletivas sobre uma imagem.

O GLOM usa essas ilhas de vetores concordantes para realizar o truque de representar uma árvore de análise em uma rede neural. Enquanto algumas redes neurais recentes usam concordância entre vetores para ativação, o GLOM usa concordância para representação, construindo representações de coisas dentro da rede. Por exemplo, quando vários vetores concordam que todos representam parte do nariz, seu pequeno grupo de concordância representa coletivamente o nariz na árvore de análise da rede para o rosto. Outro agrupamento ainda menor de vetores concordantes pode representar a boca na árvore de análise; e o grande aglomerado no topo da árvore representaria a conclusão emergente de que a imagem como um todo é o rosto de Hinton. “A forma como a árvore de análise é representada aqui”, explica Hinton, “é que, no nível do objeto, você tem uma grande ilha; as partes do objeto são ilhas menores; as subpartes são ilhas ainda menores e assim por diante”.

Figura 2 do artigo de Hinton sobre o GLOM. As ilhas de vetores idênticos (setas da mesma cor) nos vários níveis representam uma árvore de análise. GEOFFREY HINTON

De acordo com o amigo de longa data de Hinton e colaborador, Yoshua Bengio, um cientista da computação da Universidade de Montreal, se o GLOM pode resolver o desafio de engenharia de representar uma análise de árvore em uma rede neural, seria um grande feito e muito importante para as redes neurais funcionarem corretamente. “Geoff teve percepções muito poderosas várias vezes em sua carreira, muitas das quais se provaram corretas”, diz Bengio. “Por isso, presto atenção nele, especialmente quando ele acredita tanto nelas, como é o caso do GLOM”.

A força da convicção de Hinton é baseada não apenas na analogia da câmara de eco, mas também nas analogias matemáticas e biológicas que inspiraram e justificaram algumas das decisões de concepção na nova engenharia do GLOM.
“Geoff é um pensador altamente incomum, pois é capaz de se basear em conceitos matemáticos complexos e integrá-los a restrições biológicas para desenvolver teorias”, diz Sue Becker, ex-aluna de Hinton, agora neurocientista cognitiva computacional na Universidade McMaster. “Os pesquisadores que se concentram mais na teoria matemática ou neurobiologia têm muito menos probabilidade de resolver o interessante quebra-cabeça de como as máquinas e os humanos podem aprender e pensar”.

Transformando filosofia em engenharia

Até agora, a nova ideia de Hinton foi bem recebida, especialmente em algumas das maiores câmaras de eco do mundo. “No Twitter, recebi muitas curtidas”, diz ele. E um tutorial do YouTube criou o termo “MeGLOMania “.

Hinton é o primeiro a admitir que, neste momento o GLOM é pouco mais que devaneio filosófico (ele passou um ano estudando filosofia antes de mudar para a psicologia experimental). “Se uma ideia parece boa em um nível filosófico, ela é boa. Como você pode ter uma ideia filosófica que parece ruim, mas acaba sendo verdadeira? Isso não seria considerado uma ideia filosófica”, explica ele. E ele diz que a ciência, em comparação, está “cheia de coisas que parecem muito ruins”, mas que funcionam muito bem, como as redes neurais.

O GLOM foi projetado para parecer filosoficamente plausível. Mas vai funcionar?

Chris Williams, professor de machine learning na Escola de Informática da Universidade de Edimburgo, espera que o GLOM possa gerar grandes inovações. No entanto, diz ele, “o que distingue a IA da filosofia é que podemos usar computadores para testar essas teorias”. É possível que uma falha na ideia possa ser exposta, e até mesmo reparada, por meio de tais experimentos, diz ele. “No momento, não acho que temos evidências suficientes para avaliar o real significado da ideia, embora eu acredite que seja muito promissor.”

Os inputs do modelo de teste do GLOM são dez elipses que formam uma ovelha ou um rosto. LAURA CULP

Alguns dos colegas de Hinton no Google Research em Toronto estão nos estágios iniciais de investigação experimental do GLOM. Laura Culp, uma engenheira de software que implementa novas arquiteturas de rede neural, está usando uma simulação de computador para testar se o GLOM pode produzir as ilhas de concordância de Hinton para entender as partes e a totalidade de um objeto, mesmo quando as partes do input são ambíguas. Nos experimentos, as partes são 10 elipses, ovais e de diferentes tamanhos, que podem ser dispostas para formar um rosto ou uma ovelha.

Com inputs aleatórios de uma elipse ou outra, o modelo deve ser capaz de fazer previsões, diz Culp, e “lidar com a incerteza de se a elipse é ou não parte de um rosto ou de uma ovelha, e se é a perna de uma ovelha, ou a cabeça de uma ovelha”. Diante de qualquer alteração, o modelo também deve ser capaz de se corrigir. A próxima etapa é estabelecer uma linha de base, indicando se uma rede neural de deep learning padrão poderia ficar confusa com tal tarefa. Até agora, o GLOM é fortemente supervisionado: Culp cria e rotula os dados, incitando e pressionando o modelo para encontrar previsões corretas e ter sucesso ao longo do tempo. (A versão não supervisionada é chamada de GLUM. “É uma piada”, diz Hinton.)

Nesse estado preliminar, é muito cedo para tirar grandes conclusões. Culp está à espera de mais números. Hinton já está impressionado, no entanto. “A versão simples do GLOM pode olhar para 10 elipses e ver um rosto e uma ovelha com base nas relações espaciais entre as elipses”, diz ele. “Isso é complicado, porque uma única elipse não transmite nenhuma informação sobre a que tipo de objeto ela pertence ou que parte desse objeto ela representa”.

No geral, Hinton está feliz com as reações. E ele conclui: “Eu só queria publicá-lo para a comunidade, para que qualquer pessoa pudesse experimentá-lo. Ou tentar alguma outra combinação dessas ideias. E então isso transformaria a filosofia em ciência”.

Assine