Após assistir 70.000 horas de Minecraft, um bot pode possibilitar o próximo grande avanço da Inteligência Artificial
Inteligência artificial

Após assistir 70.000 horas de Minecraft, um bot pode possibilitar o próximo grande avanço da Inteligência Artificial

Vídeos online são uma vasta e inexplorada fonte de dados de treinamento. E a OpenAI diz que tem uma nova maneira de usá-los.

A OpenAI construiu o melhor bot-jogador de Minecraft ao fazer com que ele assistisse a 70.000 horas de vídeo de pessoas jogando o popular jogo de computador. Isso evidencia uma nova técnica poderosa que pode ser usada para treinar máquinas e computadores para que eles realizem uma ampla gama de tarefas simplesmente acessando sites como o YouTube, uma fonte vasta e inexplorada de dados de treinamento. 

O modelo de Inteligência Artificial (IA) de Minecraft aprendeu a executar sequências de cliques complicados de teclado e mouse para concluir tarefas no jogo, como derrubar árvores e criar ferramentas. É o primeiro bot capaz de criar as chamadas ferramentas de diamante, uma tarefa que normalmente leva bons jogadores humanos cerca de 20 minutos acelerados de cliques, o que é uma média de 24.000 ações no jogo. 

Esse resultado representa um avanço para uma técnica conhecida como imitation learning, na qual as redes neurais são treinadas para executar tarefas ao observar os humanos. O imitation learning pode ser usado para treinar IA para controlar braços de robôs, dirigir carros ou navegar em páginas da web. 

Há uma grande quantidade de vídeos online mostrando pessoas realizando tarefas diferentes. Ao explorar esses materiais, os pesquisadores esperam fazer para a imitation learning o que o GPT-3 fez para grandes modelos de linguagem. “Nos últimos anos, vimos o surgimento desse paradigma criado pelo GPT-3, no qual recursos incríveis vêm de grandes modelos treinados em enormes seções da Internet”, diz Bowen Baker, da OpenAI, um dos membros da equipe por trás do novo modelo de IA. “Muito disso é porque estamos modelando o que os humanos fazem quando estão na internet”. 

O problema com as abordagens existentes de imitation learning é que as demonstrações em vídeo precisam ser rotuladas em cada etapa: esta ação faz com que isso aconteça, fazer aquela ação faz com que aquilo aconteça e assim por diante. E essas anotações manualmente dão muito trabalho e, por isso, esses conjuntos de dados tendem a ser pequenos. Baker e seus colegas queriam encontrar uma maneira de transformar os milhões de vídeos disponíveis online em um novo conjunto de dados. 

Com isso em mente, a equipe usou uma abordagem denominada Video Pre-Training (VPT), que contorna esse obstáculo do imitation learning ao treinar outra rede neural para rotular vídeos automaticamente. Os pesquisadores primeiro contrataram crowdworkers para jogar Minecraft e gravaram seus cliques de teclado e mouse junto ao vídeo de suas telas. Isso deu a eles anotações de 2.000 horas jogadas de Minecraft, que eles usaram posteriormente para treinar um modelo para corresponder as ações com os resultados da tela. Por exemplo, ao clicar em um botão do mouse em determinada situação, o personagem levanta seu machado. 

A próxima etapa foi usar esse modelo para gerar rótulos de ação para 70.000 horas de vídeos não rotulados retirados da Internet e, em seguida, treinar o bot do Minecraft nesse conjunto de dados maior. 

“O vídeo é um recurso de treinamento com muito potencial”, diz Peter Stone, diretor executivo da Sony AI America, que já trabalhou com imitation learning. 

O imitation learning é uma alternativa ao reinforcement learning, no qual uma rede neural aprende a executar uma tarefa do zero por meio de tentativa e erro. Esta é a técnica por trás de muitos dos maiores avanços da IA nos últimos anos que tem sido usado para treinar modelos capazes de vencer humanos em jogos, controlar um reator de fusão e descobrir uma maneira mais rápida de realizar operações matemáticas fundamentais. 

O problema é que o reinforcement learning funciona melhor para tarefas que têm um objetivo claro, ou seja, ações aleatórias podem levar a um sucesso acidental. E com isso, os algoritmos de reinforcement learning recompensam esses sucessos acidentais para torná-los mais propensos a acontecer novamente. 

Mas o Minecraft é um jogo sem objetivo claro. Os jogadores são livres para fazer o que quiserem: vagar por um mundo gerado por computador, minerar diferentes materiais e combiná-los para criar diferentes objetos. 

A natureza aberta do Minecraft o torna um bom ambiente para treinar a IA. Baker foi um dos pesquisadores por trás do Hide & Seek (ou Pique-Esconde), um projeto no qual pesquisadores soltaram bots em um parquinho virtual e usaram reinforcement learning para fazer com que eles descobrissem como cooperar e operar ferramentas para vencer jogos simples. Mas os bots logo superaram o espaço virtual. “Os bots meio que dominaram o universo. Não havia mais nada para eles fazerem”, diz Baker. “Queríamos expandi-lo e achamos que o Minecraft era uma ótima alternativa para se trabalhar”. 

Mas a OpenAi não é a única a pensar nisso. O Minecraft está se tornando um importante campo de teste para novas técnicas de IA. O MineDojo, um ambiente de Minecraft com dezenas de desafios pré-construídos, ganhou um prêmio na NeurIPS deste ano, uma das maiores conferências de IA. 

Usando o VPT, o bot da OpenAI foi capaz de realizar tarefas que seriam impossíveis usando apenas o reinforcement learning, como criar pranchas e transformá-las em uma mesa, o que envolve cerca de 970 ações consecutivas. Mesmo assim, a equipe descobriu que os melhores resultados vinham do uso de imitation learning e reinforcement learning juntos. Pegar um bot treinado com VPT e ajustá-lo com reinforcement learning permitiu que ele realizasse tarefas envolvendo mais de 20.000 ações consecutivas. 

Os pesquisadores afirmam que a abordagem VPT pode ser usada para treinar a IA para realizar outras tarefas. Para começar, pode ser usado para bots que usam teclado e mouse para navegar em sites, reservar voos ou fazer compras online. Além disso, em teoria, ela poderia ser usada no treinamento de robôs para realizar tarefas físicas do mundo real, copiando vídeos em primeira pessoa de pessoas fazendo essas coisas. “É plausível”, diz Stone. 

Matthew Guzdial, da Universidade de Alberta, no Canadá, que usou vídeos para ensinar as regras de jogos como Super Mario Bros. para uma IA, não acredita que isso acontecerá tão cedo. As ações em jogos como Minecraft e Super Mario Bros. são realizadas pressionando botões. As ações no mundo físico são muito mais complexas e difíceis de serem aprendidas por uma máquina. “Isso abre brecha para todo um conjunto confuso de novos problemas de pesquisa”, diz Guzdial. 

“Este trabalho é outra prova do poder de expandir o uso de modelos de IA e aplicá-los em treinamentos de grandes conjuntos de dados para obter um bom desempenho”, diz Natasha Jaques, que trabalha com reinforcement learning multiagente no Google e na Universidade da Califórnia, em Berkeley (EUA). 

Grandes conjuntos de dados do tamanho da Internet certamente abrirão espaço para novos recursos de IAs, diz Jaques: “Vimos isso repetidamente e a abordagem desenvolvida é uma ótima iniciativa”. Mas a OpenAI está muito confiante no poder de grandes conjuntos de dados por si sós, ela diz: “Pessoalmente, sou um pouco mais cética em relação à ideia de que os dados possam resolver todo e qualquer problema”. 

Ainda assim, Baker e seus colegas acham que ao coletar mais de um milhão de horas de vídeos do Minecraft, sua IA se tornará ainda melhor. É provavelmente o melhor bot para jogar Minecraft existente até agora, diz Baker: “Mas com mais dados e modelos maiores, espero que pareça que estamos assistindo a um humano jogando, ao contrário de um bebê IA tentando imitar um humano”. 

Último vídeo

Nossos tópicos