Oferecido por
Se você consegue reconhecer um cachorro ao avistar um, provavelmente consegue reconhecer um cachorro quando ele é descrito para você. Não é assim para a inteligência artificial de hoje. As redes neurais profundas tornaram-se muito boas em identificar objetos em fotos e conversar usando linguagem natural, mas não em fazer essas duas coisas ao mesmo tempo: existem modelos de Inteligência Artificial (IA) que se destacam em um ou outro, mas não em ambos.
Parte do problema é que esses modelos aprendem habilidades diferentes usando técnicas diferentes. Este é um grande obstáculo para o desenvolvimento de IA de uso geral, máquinas capazes de realizar várias tarefas e se adaptar. Isso também significa que os avanços no deep learning voltados para o desenvolvimento de uma habilidade geralmente não podem ser aplicados e transferidos para outras.
Uma equipe da Meta AI (anteriormente conhecida como Facebook AI Research) quer mudar isso. Os pesquisadores desenvolveram um único algoritmo que pode ser usado para treinar uma rede neural para reconhecer tanto imagens quanto texto ou fala, tudo em um modelo só. O algoritmo, chamado Data2vec, não apenas unifica o processo de aprendizado, mas funciona tão bem quanto as técnicas existentes voltadas para as três habilidades individualmente. “Esperamos que isso mude a maneira como as pessoas pensam em fazer esse tipo de trabalho”, diz Michael Auli, pesquisador da Meta AI.
A pesquisa se baseia em uma abordagem conhecida como self-supervised learning (aprendizado auto-supervisionado ou aprendizado não supervisionado por humanos), em que as redes neurais aprendem a identificar padrões em conjuntos de dados por si mesmas, sem serem guiadas por exemplos rotulados. É assim que grandes modelos de linguagem, como o GPT-3, aprendem com enormes conjuntos de texto não rotulados extraídos da Internet, e isso impulsionou muitos dos avanços recentes no deep learning.
Auli e seus colegas da Meta AI estavam trabalhando com o self-supervised learning para reconhecimento de fala. Mas quando eles analisaram o que outros pesquisadores estavam fazendo com o aprendizado auto-supervisionado para imagens e texto, perceberam que todos estavam usando técnicas diferentes para perseguir os mesmos objetivos.
Data2vec usa duas redes neurais, nos papéis de um aluno e um professor. Primeiro, a rede-professor é treinada em imagens, texto ou fala da maneira usual, aprendendo uma representação interna desses dados que lhe permite prever o que vê quando novos exemplos são mostrados a ela. Quando uma foto de um cachorro é apresentada, ela o reconhece como um cachorro.
A novidade é que a rede-aluno é então treinada para prever as representações internas da rede-professor. Em outras palavras, ela não é treinada para identificar que está vendo uma foto de um cachorro quando ela lhe é mostrada, mas para adivinhar o que a rede-professor vê quando a foto é apresentada.
Como a rede-aluno não tenta adivinhar a imagem ou frase real, mas sim a representação da rede-professor dessa imagem ou frase, o algoritmo não precisa ser adaptado a um tipo específico de input.
O Data2vec faz parte de uma grande tendência em IA para modelos que podem aprender a entender o mundo de mais de uma maneira. “É uma ideia inteligente”, diz Ani Kembhavi, do Allen Institute for AI em Seattle (EUA), que trabalha com visão e linguagem. “É um avanço promissor quando se trata de sistemas generalizados de aprendizagem”.
Uma ressalva importante é que, embora o mesmo algoritmo de aprendizado possa ser usado para diferentes habilidades, ele só pode aprender uma habilidade por vez. Uma vez que tenha aprendido a reconhecer imagens, deve começar do zero para aprender a reconhecer a fala. Ensinar a uma IA várias habilidades de uma só vez é difícil, mas isso é algo que a equipe da Meta AI quer tentar em seguida.
Os pesquisadores ficaram surpresos ao descobrir que sua abordagem realmente teve um desempenho melhor do que as técnicas existentes no reconhecimento de imagens e fala, e teve um desempenho tão bom quanto os principais modelos de linguagem na compreensão de texto.
Mark Zuckerberg já está sonhando com potenciais aplicações no metaverso. “Tudo isso acabará sendo incorporado aos óculos de Realidade Aumentada com um assistente de IA”, postou ele no Facebook em janeiro. “Pode ajudar você a cozinhar o jantar, perceber se você não tiver um ingrediente, fazer com que você abaixe o fogo ou tarefas mais complexas”.
Para Auli, a principal conclusão é que os pesquisadores devem sair de suas zonas de conforto. “Não é necessário focar em apenas uma coisa”, diz ele. “Uma boa ideia pode servir em todas as áreas”.