Isso pode levar ao próximo grande avanço no senso comum de Inteligência Artificial (IA)
Inteligência artificial

Isso pode levar ao próximo grande avanço no senso comum de Inteligência Artificial (IA)

Os pesquisadores estão ensinando modelos gigantes da linguagem a “ver” para ajudá-los a entender o mundo.

Você provavelmente já nos ouviu dizer isso inúmeras vezes: GPT-3, a IA gigantesca que emite uma linguagem estranhamente humana, é uma maravilha.  Também é em grande parte  uma ilusão.  Você pode testá-la de uma forma bem simples: pergunte  a cor de ovelha, e ela irá  sugerir  “preto” tão frequentemente quanto “branco” — refletindo a frase “ovelha negra” em nosso vernáculo.

Esse é o problema com os modelos de linguagem: por serem treinados apenas em texto, eles carecem de bom senso. Agora, pesquisadores da Universidade da Carolina do Norte (ou UNC, como denomina a sigla em inglês), em Chapel Hill, desenvolveram uma nova técnica para mudar isso.  Eles chamam isso de “vokenização” e dá aos modelos de linguagem como GPT-3 a capacidade de “ver”.

Não é a  primeira vez que as  pessoas procuram combinar modelos de linguagem com visão computacional.  Esta é, na verdade, uma área de pesquisa em IA de rápido crescimento.  A ideia é que os dois tipos de IA têm diferentes qualidades.  Modelos de linguagem como GPT-3 são treinados por meio de aprendizado não supervisionado, que não requer rotulagem manual de dados, tornando suas escalas fáceis de ampliar.  Os modelos de imagem, como sistemas de reconhecimento de  objetos, por outro lado, aprendem mais diretamente com a realidade.  Em outras palavras, seu entendimento não depende do tipo de abstração do mundo que o texto fornece.  Eles podem “ver” nas fotos das ovelhas que elas são de fato brancas.

Os modelos de IA que podem analisar tanto a linguagem quanto a entrada visual também têm usos muito práticos.  Se quisermos construir assistentes robóticos, por exemplo, eles precisam de visão computacional para navegar pelo mundo e da linguagem para se comunicarem com os humanos.

Mas combinar os dois tipos de IA é mais fácil de falar do que fazer.  Não é tão simples quanto juntar um modelo de linguagem existente com um sistema de reconhecimento de objetos. Requer o treinamento de um novo modelo do zero com um conjunto de dados que inclui texto e imagens, também conhecido como conjunto de dados de linguagem visual.

A abordagem mais comum para a curadoria desse conjunto de dados é compilar uma coleção de imagens com legendas descritivas.  Uma imagem como a que está abaixo, por exemplo, teria a legenda “Um gato laranja está sentado na mala pronto para ser empacotado”.  Isso difere dos conjuntos de dados de imagem típicos, que rotulariam a mesma imagem com apenas um substantivo, como “gato”.  Um conjunto de dados de linguagem visual pode, portanto, ensinar um modelo de IA não apenas como reconhecer objetos, mas como eles se relacionam e atuam uns sobre os outros, usando verbos e preposições.

Mas você pode ver por que esse processo de curadoria de dados demoraria uma eternidade.  É por isso que os conjuntos de dados de linguagem visual que existem são tão insignificantes.  Um conjunto de dados popular apenas de texto como a Wikipedia em inglês (que de fato inclui quase todas as entradas da Wikipedia em inglês) pode conter cerca de 3 bilhões de palavras.  Um conjunto de dados de linguagem visual, como Microsoft Common Objects in Context, ou MS COCO, contém apenas 7 milhões.  Simplesmente não são dados suficientes para treinar um modelo de IA para algo útil.

A “vokenização” contorna esse problema, usando métodos de aprendizagem não supervisionados para dimensionar a pequena quantidade de dados no MS COCO até o tamanho da Wikipedia em inglês.  O modelo de linguagem visual resultante supera os modelos de última geração em alguns dos testes mais difíceis usados ​​para avaliar a compreensão da linguagem de IA hoje.

“Você não supera a tecnologia de ponta com apenas uma pequena tentativa”, diz Thomas Wolf, o cofundador e diretor de ciências da startup de processamento de linguagem natural (PLN) Hugging Face, que não fez parte da pesquisa.  Este não é um teste qualquer. É por isso que isso é super empolgante”.

De tokens para  vokens

Vamos primeiro definir algumas terminologias.  O que diabos é um “voken”?

Na linguagem IA, as palavras usadas para treinar modelos de linguagem são conhecidas como tokens. Assim, os pesquisadores da UNC decidiram chamar a imagem associada a cada token em seu modelo de linguagem visual de  voken.  Vokenizer  é o que eles chamam de algoritmo que encontra  vokens  para cada token, e  vokenização  é o que eles chamam de todo o processo.

O objetivo disso não é apenas mostrar o quanto os pesquisadores de IA adoram inventar palavras.  (Eles realmente amam.) Também ajuda a quebrar a ideia básica por trás da  vokenização.  Em vez de começar com um conjunto de dados de imagem e escrever frases manualmente para servir como legendas – um processo muito lento — os pesquisadores UNC começaram com um conjunto de dados de linguagem e usaram o aprendizado não supervisionado para combinar cada palavra com uma imagem relevante (mais sobre isso mais tarde).  Este é um processo altamente escalonável.

A técnica de aprendizagem não supervisionada, aqui, é, em última análise, a contribuição do artigo.  Como você realmente encontra uma imagem relevante para cada palavra?

Vokenização

Voltemos por um momento ao GPT-3. GPT-3 faz parte de uma família de modelos de linguagem conhecidos como transformadores, que representou um grande avanço na aplicação de aprendizagem não supervisionada ao processamento de linguagem natural quando o primeiro foi introduzido em 2017. Os transformadores aprendem os padrões da linguagem humana observando como as palavras são usadas no contexto e, em seguida, criando uma representação matemática de cada palavra, conhecida como “incorporação de palavras”, com base nesse contexto.  A incorporação da palavra “gato” pode mostrar, por exemplo, que ela é frequentemente usada em torno das palavras ”miau” e “laranja”, mas com menos frequência em torno das palavras “latido” ou “azul”.

É assim que os transformadores aproximam os significados das palavras e como o GPT-3 pode escrever frases semelhantes a forma como humanos fariam.  Ele se baseia em parte nessas incorporações para dizer como reunir palavras em frases e frases em parágrafos.

Existe uma técnica paralela que também pode ser usada para imagens.  Em vez de examinar o texto em busca de padrões de uso de palavras, ele examina as imagens em busca de padrões visuais.  Ele contabiliza a frequência com que um gato, digamos, aparece em uma cama em comparação a uma árvore, e cria uma incorporação de um “gato” com essas informações contextuais.

A percepção dos pesquisadores da UNC foi que eles deveriam usar ambas as técnicas de incorporação no MS COCO.  Eles converteram as imagens em incorporaçoes visuais e as legendas em incorporações de palavras.  O que é realmente interessante sobre essas incorporações é que elas podem ser representadas graficamente em um espaço tridimensional e você pode literalmente ver como elas estão relacionadas entre si.  Agrupamentos de incorporações visuais que estão intimamente relacionados aos agrupamentos de incorporações de palavras aparecerão mais próximos no gráfico.  Em outras palavras, a incorporação visual do gato deve (em teoria) sobrepor-se à incorporação baseada em texto do gato.  Muito legal.

Você pode ver onde isso vai dar.  Uma vez que as incorporações são representadas graficamente, comparadas e relacionadas umas com as outras, é fácil começar a combinar imagens (vokens) com palavras (tokens).  E lembre-se, como as imagens e palavras são combinadas com base em suas incorporações, elas também são combinadas com base no contexto.  Isso é útil quando uma palavra pode ter significados totalmente diferentes.  A técnica lida com isso, encontrando diferentes  vokens  para cada instância da palavra.

Por exemplo:

    Aqui está o contato dela

  Alguns gatos adoram o contato humano.

O token é a palavra “contato” em ambos os exemplos.  Mas, na primeira frase, o contexto sugere que a palavra se refere às informações de contato, portanto, o  voken  é o ícone de contato.  Na segunda frase, o contexto sugere que a palavra se refere ao toque, então o  voken  mostra um gato sendo acariciado.

Os pesquisadores usaram as incorporações visuais e de palavras que criaram com o MS COCO para treinar seu  algoritmo de  vokenizer. Uma vez treinado, o  vokenizer  foi então capaz de encontrar  vokens  para os tokens na Wikipedia em inglês.  Não é perfeito.  O algoritmo encontrou  vokens  apenas  para cerca de 40% dos tokens.  Mas isso ainda é 40% de um conjunto de dados com quase 3 bilhões de palavras.

Com esse novo conjunto de dados, os pesquisadores retreinaram um modelo de linguagem conhecido como BERT, um transformador de código aberto desenvolvido pelo Google que antecede o GPT-3.  Eles então testaram o novo e aprimorado BERT em seis testes de compreensão de linguagem diferentes, incluindo  SQuAD , o Stanford Question  Response  Dataset, que pede aos modelos para responder a perguntas de compreensão de leitura sobre uma série de artigos, e SWAG, que tenta enganar modelos com sutilezas da língua inglesa para sondar se eles apenas imitam e memorizam fórmulas.  O BERT aprimorado teve um desempenho melhor em todos eles, o que Wolf diz que não é pouca coisa.

Os pesquisadores Hao Tan, um aluno de doutorado, e Mohit Bansal, seu orientador, apresentarão sua nova  técnica de  vokenização  em duas semanas na Conferência sobre Métodos Empíricos em Processamento de Linguagem Natural (Conference on Empirical Methods in Natural Language Processing).  Embora o trabalho ainda seja inicial, Wolf vê o trabalho deles como um importante avanço conceitual para fazer o aprendizado não supervisionado funcionar em modelos de linguagem visual.  Foi uma faísca semelhante que ajudou a avançar drasticamente o processamento de linguagem natural naquela época.

“Na PLN, tivemos essa descoberta há mais de dois anos, e então, de repente, o processamento de linguagem natural se tornou um campo onde muitas inovações estavam acontecendo e, de alguma forma, ela estava à frente de todos os outros campos da IA,” diz ele.  “Mas temos esse problema de conectar o texto com outras coisas. Então  é como esse robô que só consegue falar, mas não ver ou ouvir”.

“Este trabalho é um exemplo em que conseguiram conectar a outra modalidade e funciona  melhor”, afirma. “Você pode imaginar que talvez algumas dessas técnicas possam ser reutilizadas quando quisermos introduzir esse modelo de linguagem realmente poderoso em um robô. Talvez a mesma coisa seja usada para relacionar o raciocínio de um robô ao texto”.

Nossos tópicos