Pokémon Go foi o primeiro sucesso de realidade aumentada do mundo. Lançado em 2016 pela Niantic, uma empresa derivada do Google, o toque virtual na poderosa franquia rapidamente se tornou um fenômeno global. De Chicago a Enoshima, os jogadores foram às ruas na esperança urgente de capturar um Jigglypuff, um Squirtle ou, com uma enorme quantidade de sorte, um ultrarraro Galarian Zapdos pairando um pouco além do alcance, sobreposto ao mundo cotidiano.
Em resumo, estamos falando de um número enorme de pessoas apontando seus telefones para muitos edifícios. “Quinhentos milhões de pessoas instalaram esse aplicativo em 60 dias”, diz Brian McClendon, diretor de tecnologia da Niantic Spatial, uma empresa de Inteligência Artificial que a Niantic desmembrou em maio do ano passado. De acordo com a Scopely, do ramo de videogames, que comprou Pokémon Go da Niantic ao mesmo tempo, o jogo ainda atraiu mais de 100 milhões de jogadores em 2024, oito anos após seu lançamento.
Agora a Niantic Spatial está usando esse vasto e incomparável tesouro de dados obtidos por crowdsourcing (quando existe uma produção colaborativa) com imagens de pontos de referência etiquetados com marcadores de localização super precisos capturadas pelos telefones de centenas de milhões de jogadores de Pokémon Go ao redor do mundo. Com isso, pretende construir uma espécie de modelo de mundo, uma nova tecnologia em alta que fundamenta a inteligência dos grandes modelos de linguagem (Large Language Models, ou LLMs) em ambientes do mundo real.
O produto mais recente da empresa é um modelo que, segundo ela, pode determinar sua localização em um mapa com precisão de poucos centímetros, com base em um punhado de fotos dos edifícios ou de outros marcos à vista. A empresa quer usá-lo para ajudar robôs a navegar em lugares onde o GPS não é confiável.
No primeiro grande teste de sua tecnologia, a Niantic Spatial acaba de se unir à Coco Robotics, uma startup que opera robôs de entrega em várias cidades dos Estados Unidos e da Europa. “Todo mundo achava que a Realidade Aumentada (RA) era o futuro, que os óculos estavam chegando”, diz McClendon. “E então os robôs se tornaram o público.”
De Pikachu à entrega de pizza
A Coco Robotics opera cerca de mil robôs do tamanho de cases de transporte, projetados para carregar até oito pizzas extragrandes ou quatro sacolas de supermercado, em Los Angeles, Chicago, Jersey City, Miami, nos Estados Unidos, e em Helsinque, na Finlândia. Segundo o CEO Zach Rash, eles já realizaram mais de meio milhão de entregas, percorrendo, ao todo, alguns milhões de milhas em todas as condições climáticas.
Mas, para competir com entregadores humanos, os robôs da Coco, que se deslocam pelas calçadas a cerca de oito quilômetros por hora, precisam ser o mais confiáveis possível. “A melhor maneira de fazermos nosso trabalho é chegar exatamente quando dissemos que iríamos chegar”, diz Rash. E isso significa não se perder.
O problema que a Coco enfrenta é que não pode contar com o GPS, que pode ser fraco nas cidades porque os sinais de rádio ricocheteiam nos edifícios e interferem uns nos outros. “Fazemos entregas em muitas áreas densas, com arranha-céus, passagens inferiores e vias expressas, e essas são as áreas onde o GPS simplesmente nunca funciona de verdade”, diz Rash.
“O cânion urbano é o pior lugar do mundo para o GPS”, diz McClendon. “Se você olhar para aquele ponto azul no seu telefone, muitas vezes vai vê-lo derivar 50 metros, o que coloca você em outro quarteirão, indo em outra direção, no lado errado da rua.” É aí que entra a Niantic Spatial.
Nos últimos anos, a empresa vem pegando os dados coletados dos jogadores de Pokémon Go e Ingress, o jogo anterior de Realidade Aumentada para celular da Niantic, lançado em 2013, e construindo um sistema de posicionamento visual, tecnologia que diz onde você está com base no que consegue ver. “Acontece que fazer o Pikachu correr de forma realista e fazer o robô da Coco se mover pelo mundo com segurança e precisão é, na verdade, o mesmo problema”, diz John Hanke, CEO da Niantic Spatial.
“O posicionamento visual não é uma tecnologia muito nova”, diz Konrad Wenzel, da ESRI, uma empresa que desenvolve software de mapeamento digital e análise geoespacial. “Mas é óbvio que, quanto mais câmeras tivermos por aí, melhor isso se torna.”
A Niantic Spatial treinou seu modelo com 30 bilhões de imagens capturadas em ambientes urbanos. Em particular, as imagens estão concentradas em pontos de interesse, locais que serviram como pontos importantes nos jogos da Niantic, para os quais os jogadores eram incentivados a ir, como arenas de batalha de Pokémon. “Tínhamos mais de um milhão de locais ao redor do mundo onde podíamos localizá-lo com precisão”, diz McClendon. “Sabemos onde você está com alguns centímetros de precisão e, mais importante, para onde você está olhando.”
O resultado é que, para cada um desses milhões de locais, a Niantic Spatial tem muitos milhares de imagens tiradas mais ou menos no mesmo lugar, mas de ângulos diferentes, em diferentes horários do dia e em diferentes condições climáticas. Cada uma dessas imagens vem com metadados detalhados que indicam com precisão onde, no espaço, o telefone estava no momento em que capturou a imagem, incluindo para que lado estava voltado, qual era sua orientação, se estava em movimento ou não, em que velocidade e em que direção, entre outros dados.
A empresa usou esse conjunto de informações para treinar um modelo para prever exatamente onde está, levando em conta o que está vendo, mesmo para locais diferentes daqueles dos milhões de pontos quentes, onde boas fontes de dados de imagem e localização são mais escassas.
Além do GPS, os robôs da Coco, equipados com quatro câmeras, agora usarão esse modelo para tentar descobrir onde estão e para onde estão indo. As câmeras ficam na altura do quadril e apontam em todas as direções ao mesmo tempo, de modo que seu ponto de vista é um pouco diferente do de um jogador de Pokémon Go, mas adaptar os dados foi simples, diz Rash.
Empresas rivais também usam sistemas de posicionamento visual. Por exemplo, a Starship Technologies, uma empresa de entrega por robôs fundada na Estônia em 2014, diz que seus robôs usam seus sensores para construir um mapa 3D do entorno, traçando as bordas dos edifícios e a posição dos postes de iluminação.
Mas Rash aposta que a tecnologia da Niantic Spatial dará à Coco uma vantagem. Ele afirma que ela permitirá que seus robôs se posicionem nos locais corretos de retirada do lado de fora dos restaurantes, garantindo que não atrapalhem ninguém, e parem logo diante da porta do cliente, em vez de alguns passos antes, como poderia ter acontecido no passado.
Uma explosão cambriana na robótica
Quando a Niantic Spatial começou a trabalhar em seu sistema de posicionamento visual, a ideia era aplicá-lo à realidade aumentada, diz Hanke. “Se você está usando óculos de RA e quer que o mundo se ajuste àquilo para onde você está olhando, então precisa de algum método para fazer isso”, diz ele. “Mas agora estamos vendo uma explosão cambriana na robótica” (quando uma grande variedade de organismos apareceu no cenário evolutivo, durante o período Cambriano, e é comparado a um “Big Bang” biológico).
Alguns desses robôs talvez precisem compartilhar espaços com seres humanos, como canteiros de obras e calçadas. “Se os robôs algum dia forem se integrar a esse ambiente de uma forma que não seja disruptiva para os seres humanos, eles terão de ter um nível semelhante de compreensão espacial”, diz Hanke. “Podemos ajudar os robôs a encontrar exatamente onde estão quando forem sacudidos e esbarrados”.
A parceria com a Coco Robotics é o começo. O que a Niantic Spatial está colocando em prática, diz Hanke, são as primeiras peças do que ele chama de mapa vivo, uma simulação virtual hiperdetalhada que muda à medida que o mundo muda. Enquanto robôs da Coco e de outras empresas se movimentarem, eles fornecerão novas fontes de dados de mapeamento, alimentando réplicas digitais do mundo cada vez mais detalhadas.
Mas, na forma como Hanke e McClendon veem a questão, os mapas não estão apenas se tornando mais detalhados, eles estão sendo usados cada vez mais por máquinas. Isso muda para que eles servem. Há muito tempo os mapas são usados para ajudar as pessoas a se localizar no mundo. À medida que passaram de 2D para 3D para 4D, pense em simulações em tempo real, como gêmeos digitais, o princípio básico não mudou: pontos no mapa correspondem a pontos no espaço ou no tempo.
E, no entanto, mapas para máquinas talvez precisem se tornar mais parecidos com guias, cheios de informações que os seres humanos consideram óbvias. Empresas como Niantic Spatial e ESRI querem adicionar descrições que digam o que elas estão de fato vendo, com cada objeto etiquetado com uma lista de suas propriedades. “Esta era trata de construir descrições úteis do mundo para que as máquinas o compreendam”, diz Hanke. “Os dados que temos são um excelente ponto de partida em termos de construir uma compreensão de como funciona o tecido conjuntivo do mundo.”
Há muito burburinho em torno de modelos de mundo neste momento e a Niantic Spatial sabe disso. Os grandes modelos de linguagem podem parecer sabe-tudo, mas têm muito pouco senso comum quando se trata de interpretar e interagir com ambientes cotidianos. Os modelos de mundo pretendem corrigir isso. Algumas empresas, como Google DeepMind e World Labs, estão desenvolvendo tecnologia que gera mundos virtuais de fantasia em tempo real, que depois podem ser usados para treinamento para agentes de Inteligência Artificial.
A Niantic Spatial diz que está abordando o problema por um ângulo diferente. Leve a criação de mapas longe o bastante e você acabará capturando tudo, diz McClendon: “Ainda não chegamos lá, mas queremos chegar. Estou muito focado em tentar recriar o mundo real.”




