Como os robôs aprendem: uma breve história contemporânea
Humanos e tecnologia

Como os robôs aprendem: uma breve história contemporânea

O mais recente boom da robótica representa uma revolução na forma como as máquinas aprenderam a interagir com o mundo

Os especialistas em robótica costumavam sonhar grande, mas construir pequeno. Eles esperavam igualar ou superar a complexidade extraordinária do corpo humano e, então, passavam a carreira aperfeiçoando braços robóticos para fábricas de automóveis. Miravam o C-3PO, mas acabavam com o Roomba.

Mini Banner - Assine a MIT Technology Review

A verdadeira ambição de muitos desses pesquisadores era o robô da ficção científica: um que pudesse se mover pelo mundo, adaptar-se a diferentes ambientes e interagir com as pessoas de forma segura e útil. Para os mais voltados ao social, uma máquina assim poderia ajudar quem tem problemas de mobilidade, aliviar a solidão ou realizar trabalhos perigosos demais para humanos. Para os mais inclinados ao ganho financeiro, isso significaria uma fonte inesgotável de trabalho sem salário. De todo modo, uma longa história de fracassos deixou a maior parte do Vale do Silício relutante em apostar em robôs úteis.

Isso mudou. As máquinas ainda não foram construídas, mas o dinheiro está fluindo: empresas e investidores colocaram US$ 6,1 bilhões em robôs humanoides somente em 2025, quatro vezes o que foi investido em 2024.

O que aconteceu? Uma revolução na forma como as máquinas aprenderam a interagir com o mundo.

Imagine que você gostaria de ter um par de braços robóticos instalado em sua casa apenas para fazer uma coisa: dobrar roupas. Como ele aprenderia a fazer isso? Você poderia começar escrevendo regras. Verifique o tecido para descobrir quanta deformação ele consegue suportar antes de rasgar. Identifique a gola de uma camisa. Mova a pinça até a manga esquerda, levante-a e dobre-a para dentro a uma distância exata. Repita para a manga direita. Se a camisa estiver girada, ajuste o plano de acordo. Se a manga estiver torcida, corrija.

Muito rapidamente, o número de regras explode, mas uma descrição completa delas poderia produzir resultados confiáveis. Esse era o ofício original da robótica: antecipar toda possibilidade e codificá-la com antecedência.

Por volta de 2015, a vanguarda começou a fazer as coisas de outro modo: construir uma simulação digital dos braços robóticos e das roupas e dar ao programa um sinal de recompensa toda vez que ele dobrasse com sucesso, e uma penalização toda vez que falhasse.

Assim, ele melhora ao tentar todo tipo de técnica por tentativa e erro, com milhões de iterações, da mesma forma que a IA se tornou boa em jogar.

A chegada do ChatGPT, em 2022, catalisou o boom atual. Treinados em vastas quantidades de texto, os grandes modelos de linguagem funcionam não por tentativa e erro, mas aprendendo a prever qual palavra deve vir a seguir em uma frase.

Modelos semelhantes, adaptados à robótica, logo foram capazes de absorver imagens, leituras de sensores e a posição das articulações de um robô e prever a próxima ação que a máquina deve tomar, emitindo dezenas de comandos para os motores a cada segundo.

Essa mudança conceitual, a dependência de modelos de IA que ingerem grandes quantidades de dados, parece funcionar, quer esse robô útil deva conversar com pessoas, se deslocar por um ambiente ou até realizar tarefas complicadas.

Ela também foi acompanhada de outras ideias sobre como viabilizar esse novo modo de aprendizado, como colocar robôs em operação mesmo que ainda não sejam perfeitos, para que possam aprender com o ambiente em que devem trabalhar.

Hoje, os especialistas em robótica do Vale do Silício estão sonhando grande de novo. Veja como isso aconteceu.

Uma pesquisadora de robótica do MIT chamada Cynthia Breazeal apresentou ao mundo, em 2014, um robô sem braços, sem pernas e sem rosto chamado Jibo. Ele parecia, na verdade, uma luminária. O objetivo de Breazeal era criar um robô social para famílias, e a ideia atraiu US$ 3,7 milhões em uma campanha de financiamento coletivo. As primeiras pré-encomendas custavam US$ 749.

O Jibo inicial podia se apresentar e dançar para entreter crianças, mas era basicamente isso. A visão sempre foi que ele se tornasse uma espécie de assistente incorporado, capaz de lidar com tudo, de agendamentos e e-mails a contar histórias.

Ele conquistou vários usuários dedicados, mas, no fim, a empresa encerrou as atividades em 2019.

Em retrospecto, uma coisa de que o Jibo realmente precisava era de melhores capacidades de linguagem. Ele competia com a Siri, da Apple, e a Alexa, da Amazon, e todas essas tecnologias, na época, dependiam de muita roteirização.

Em termos gerais, quando você falava com elas, um software traduzia sua fala em texto, analisava o que você queria e criava uma resposta extraída de trechos previamente aprovados.

Esses trechos podiam ser encantadores, mas também eram repetitivos e simplesmente entediantes, francamente robóticos. Isso era um desafio especialmente grande para um robô que deveria ser social e voltado para a família.

O que aconteceu desde então, é claro, foi uma revolução na forma como as máquinas conseguem gerar linguagem. O modo de voz de qualquer fornecedor líder de IA agora é envolvente e impressionante, e várias startups de hardware estão tentando, e falhando, construir produtos que tirem proveito disso.

Mas isso vem com um novo risco: embora conversas roteirizadas não saiam muito dos trilhos, as geradas por IA certamente podem. Alguns brinquedos de IA populares, por exemplo, já falaram com crianças sobre como encontrar fósforos e facas.

OpenAI

Dactyl

Uma mão robótica treinada com simulações tenta modelar a imprevisibilidade e a variação do mundo real.

Em 2018, todos os principais laboratórios de robótica estavam tentando abandonar as antigas regras roteirizadas e treinar robôs por tentativa e erro. A OpenAI tentou treinar sua mão robótica, a Dactyl, de forma virtual, com modelos digitais da mão e dos cubos do tamanho da palma que ela deveria manipular.

Os cubos tinham letras e números em suas faces, e o modelo podia definir uma tarefa como: “Gire o cubo para que o lado vermelho com a letra O fique voltado para cima”.

Aqui está o problema: uma mão robótica pode ficar muito boa em fazer isso no mundo simulado, mas, quando você pega esse programa e pede que ele funcione no mundo real, pequenas diferenças entre os dois podem fazer as coisas darem errado.

As cores podem ser um pouco diferentes, ou a borracha deformável nas pontas dos dedos do robô pode acabar sendo mais elástica do que era na simulação.

A solução se chama randomização de domínio. Essencialmente, você cria milhões de mundos simulados que variam ligeiramente entre si. Em cada um deles, o atrito pode ser menor, a iluminação mais dura ou as cores mais escuras.

A exposição à variação suficiente faz com que os robôs consigam manipular o cubo melhor no mundo real.

A abordagem funcionou com o Dactyl e, um ano depois, ele conseguiu usar as mesmas técnicas centrais para fazer algo mais difícil: resolver cubos de Rubik, embora funcionasse apenas 60% das vezes, e apenas 20% quando os embaralhamentos eram particularmente difíceis.

Ainda assim, os limites da simulação fazem com que essa técnica tenha hoje um papel muito menor do que tinha em 2018. A OpenAI encerrou seu esforço em robótica em 2021, mas recentemente reativou a divisão, segundo relatos, com foco em humanoides.

Google DeepMind

RT-2

O treinamento com imagens de toda a Internet ajuda robôs a traduzir linguagem em ação.

Por volta de 2022, a equipe de robótica do Google estava fazendo algumas coisas incomuns. Ela passou 17 meses entregando a pessoas controladores de robôs e filmando-as enquanto realizavam tarefas como pegar sacos de salgadinho e abrir potes.

A equipe acabou catalogando 700 tarefas diferentes.

O objetivo era construir e testar um dos primeiros modelos fundacionais, em grande escala, para robótica. Assim como nos grandes modelos de linguagem, a ideia era inserir muito texto, tokenizá-lo em um formato com o qual um algoritmo pudesse trabalhar e, então, gerar uma saída.

O RT-1 do Google recebia como entrada informações sobre o que o robô estava vendo e sobre como as muitas partes do braço robótico estavam posicionadas. Depois, recebia uma instrução e a traduzia em comandos para os motores.

Quando já tinha visto tarefas antes, ele executava 97% delas com sucesso; teve sucesso em 76% das instruções que não tinha visto antes.

A segunda iteração, o RT-2, saiu no ano seguinte e foi ainda mais longe. Em vez de treinar apenas com dados específicos de robótica, ele ampliou o escopo: foi treinado com imagens mais gerais de toda a Internet.

Isso permitiu que o robô interpretasse melhor onde certos objetos estavam na cena.

“Todas essas outras coisas foram destravadas”, diz Kanishka Rao, especialista em robótica na Google DeepMind que liderou o trabalho. “Agora conseguíamos fazer coisas como ‘Coloque a lata de Coca-Cola perto da foto da Taylor Swift’.”

Em 2025, a Google DeepMind fundiu ainda mais os mundos dos grandes modelos de linguagem e da robótica, lançando um modelo Gemini Robotics com capacidade aprimorada de entender comandos em linguagem natural.

Covariant

RFM-1

Um modelo de IA que permite que braços robóticos ajam como colegas de trabalho.

Em 2017, antes de a OpenAI encerrar sua primeira equipe de robótica, um grupo de seus engenheiros criou uma spin-off chamada Covariant, com o objetivo de construir não humanoides de ficção científica, mas o mais pragmático dos robôs: um braço capaz de pegar e mover objetos em armazéns.

Depois de construir um sistema baseado em modelos fundacionais semelhantes aos do Google, a Covariant implantou essa plataforma em armazéns e a tratou como um pipeline de coleta de dados.

Em 2024, a empresa lançou um modelo de robótica, o RFM-1, com o qual era possível interagir como se fosse um colega de trabalho.

Se você mostrasse a um braço muitos tubos de bolas de tênis, por exemplo, poderia instruí-lo a mover cada tubo para uma área separada. O robô poderia responder, talvez prevendo que não conseguiria obter uma boa pegada e pedindo orientação sobre quais ventosas usar.

Esse tipo de coisa já havia sido feito em experimentos, mas a Covariant estava levando isso a uma escala significativa.

Ainda assim, não era perfeito. Em uma demonstração com itens de cozinha, o robô teve dificuldade quando lhe pediram para “devolver a banana” ao local original.

Ele pegou uma esponja, depois uma maçã e outros itens, antes de finalmente cumprir a tarefa.

Ele “não entende o novo conceito” de refazer os próprios passos, disse o cofundador Peter Chen. “Mas é um bom exemplo: ainda não funciona bem onde não há bons dados de treinamento.”

Chen e o cofundador Pieter Abbeel foram posteriormente contratados pela Amazon, que atualmente licencia o modelo de robótica da Covariant.

Agility Robotics

Digit

Empresas estão colocando este humanoide à prova em ambientes do mundo real.

Os novos investimentos em robótica têm como alvo, em grande parte, robôs moldados não como luminárias ou braços, mas como pessoas.

A ideia é que robôs humanoides consigam se integrar aos espaços e aos trabalhos em que humanos já atuam, evitando a necessidade de reconfigurar ambientes.

Isso, porém, é mais fácil de dizer do que de fazer. Nos raros casos em que humanoides aparecem em ambientes reais, eles ainda ficam restritos a zonas de teste.

Ainda assim, o humanoide Digit, da Agility Robotics, parece estar realizando trabalho real.

Seu design, com articulações expostas e uma cabeça claramente não humana, é guiado mais pela função do que pela estética.

Empresas como Amazon, Toyota e GXO já o colocaram em operação, fazendo dele um dos primeiros exemplos de um robô humanoide com potencial de gerar economia real, e não apenas curiosidade.

Os Digits passam os dias pegando, movendo e empilhando caixas.

O Digit atual ainda está longe do ajudante humanoide idealizado pelo Vale do Silício. Ele consegue levantar apenas 35 libras e enfrenta limitações de bateria.

Ainda assim, mostra o estágio atual da robótica: uma combinação de diferentes abordagens de aprendizado.

A Agility utiliza simulação, como a OpenAI fez, e também trabalha com modelos de IA mais recentes para adaptar seus robôs a novos ambientes.

É aí que mais de uma década de experimentos levou o setor: agora, ele voltou a construir grande.

Último vídeo

Nossos tópicos