Como a IA generativa pode ajudar a tornar os canteiros de obras mais seguros
Inteligência artificial

Como a IA generativa pode ajudar a tornar os canteiros de obras mais seguros

Tecnologia é capaz de salvar vidas, desde que não substitua totalmente os humanos que monitoram a segurança.

No inverno passado, durante a construção de um projeto de habitação popular em Martha’s Vineyard, Massachusetts, nos Estados Unidos, um trabalhador de 32 anos, chamado Jose Luis Collaguazo Crespo, escorregou de uma escada no segundo andar caiu no porão e morreu. Ele foi um dos mais de 1.000 trabalhadores da construção que perdem a vida no trabalho a cada ano nos EUA, tornando-se a indústria mais perigosa para escorregamentos, tropeços e quedas fatais.

Mini Banner - Assine a MIT Technology Review

“Todo mundo fala sobre [como] ‘a segurança é a prioridade número um’”, disse o empreendedor e executivo Philip Lorenzo durante uma apresentação no Construction Innovation Day 2025, uma conferência na Universidade da Califórnia, Berkeley, em abril. “Mas, então, talvez internamente, isso não seja uma prioridade tão alta. As pessoas tomam atalhos nos canteiros de obras. E assim, há essa verdadeira luta de forças entre… segurança e produtividade”.

Para combater os atalhos e a disposição para correr riscos, Lorenzo está trabalhando em uma ferramenta para a empresa DroneDeploy, com sede em San Francisco. Ela um software que cria modelos digitais diários do progresso do trabalho a partir de vídeos e imagens, conhecidos no setor como “captura da realidade”. A ferramenta, chamada Safety AI, analisa as imagens de cada dia e sinaliza condições que violam as regras da Administração de Segurança e Saúde Ocupacional (Occupational Safety and Health Administration, ou OSHA), com o que ele afirma ser uma precisão de 95%.

Isso significa que, para qualquer risco de segurança que o programa sinalize, há 95% de certeza de que a sinalização é precisa e se relaciona com uma regulamentação específica da OSHA. Lançado em outubro de 2024, agora está sendo implantado em centenas de canteiros de obras nos EUA, diz Lorenzo, e versões específicas para as regulamentações de construção em países como Canadá, Reino Unido, Coreia do Sul e Austrália também foram implementadas.

O Safety AI é uma das várias ferramentas de segurança na construção baseadas em Inteligência Artificial que surgiram nos últimos anos, desde o Vale do Silício até Hong Kong e Jerusalém. Muitas dessas ferramentas dependem de equipes de humanos, principalmente em países de baixa renda, para desenhar manualmente caixas delimitadoras em imagens de objetos-chave como escadas, a fim de rotular grandes volumes de dados para treinar um algoritmo.

Lorenzo diz que o Safety AI é o primeiro a usar IA generativa para sinalizar violações de segurança, o que significa um algoritmo que pode fazer mais do que reconhecer objetos como escadas ou capacetes de segurança. O software pode “raciocinar” sobre o que está acontecendo em uma imagem de um canteiro de obras e tirar uma conclusão sobre se há ou não uma violação da legislação. Esta é uma forma de análise mais avançada do que a detecção de objetos, que é o padrão atual da indústria, afirma Lorenzo. Mas, como a taxa de sucesso de 95% sugere, o Safety AI não é uma inteligência infalível e onisciente. Ele exige um inspetor de segurança experiente como supervisor.

Um modelo de linguagem visual no mundo real

Robôs e IA tendem a prosperar em ambientes controlados e, em grande parte, estáticos, como linhas de produção ou terminais de embarque. Mas os canteiros de obras são, por definição, locais que mudam um pouco a cada dia.

Lorenzo acredita ter criado uma maneira melhor de monitorar os canteiros de obras, usando um tipo de IA generativa chamada modelo de linguagem visual, ou VLM (Visual Language Model). Um VLM é um grande modelo de linguagem com um codificador visual, permitindo que ele “veja” imagens do mundo e analise o que está acontecendo na cena.

Usando anos de imagens de captura da realidade coletadas de clientes, com a permissão explícita deles, a equipe de Lorenzo montou o que ele chama de um “conjunto de dados de ouro”, abrangendo dezenas de milhares de imagens de violações da OSHA. Depois de acumular cuidadosamente esses dados específicos por anos, ele não se preocupa que nem mesmo um gigante da tecnologia de bilhões de dólares seja capaz de “copiar e esmagá-lo”.

Para ajudar a treinar o modelo, Lorenzo tem uma equipe menor de profissionais de segurança na construção que fazem perguntas estratégicas para a IA. Os treinadores inserem cenas de teste do conjunto de dados de ouro no VLM e fazem perguntas que orientam o modelo no processo de análise da cena, passo a passo, da maneira como um humano experiente faria. Se o VLM não gerar a resposta correta, por exemplo, se não identificar uma violação ou registrar um falso positivo, os treinadores humanos voltam e ajustam as instruções ou entradas. Lorenzo diz que, em vez de simplesmente aprender a reconhecer objetos, o VLM é ensinado “como pensar de uma certa forma”, o que significa que ele pode tirar conclusões sutis sobre o que está acontecendo em uma imagem.

Como exemplo, Lorenzo diz que os VLMs são muito melhores do que os métodos antigos para analisar o uso de escadas, responsáveis por 24% das mortes por quedas na indústria da construção.

“Com o aprendizado de máquina tradicional, é muito difícil responder à pergunta ‘Essa pessoa está usando uma escada de maneira insegura?’”, diz. “Você pode encontrar as escadas. Você pode encontrar as pessoas. Mas, para raciocinar logicamente e dizer ‘Bem, essa pessoa está bem’, ou ‘Oh não, essa pessoa está em cima do último degrau’, somente o VLM pode raciocinar logicamente e então dizer, ‘Ok, isso é inseguro. E aqui está a referência da OSHA que diz que você não pode estar no último degrau.’”

Respostas a várias perguntas (A pessoa na escada tem três pontos de contato? Ela está usando a escada como andaimes para se mover?) são combinadas para determinar se a escada na imagem está sendo usada de forma segura. “Nosso sistema tem mais de uma dúzia de camadas de perguntas só para chegar a essa resposta”, diz Lorenzo. A DroneDeploy não divulgou seus dados para revisão pública, mas ele diz que espera que sua metodologia seja auditada de forma independente por especialistas em segurança.

Os 5% faltantes

Usar modelos de linguagem visual para IA na construção mostra potencial, mas há “alguns problemas bem fundamentais” a serem resolvidos, incluindo alucinações e casos extremos, aqueles riscos para os quais o VLM não foi treinado, diz Chen Feng. Ele lidera o laboratório AI4CE da Universidade de Nova York, que desenvolve tecnologias para mapeamento 3D e compreensão de cenas em robótica de construção e outras áreas. “Noventa e cinco por cento é animador, mas como consertamos esses 5% restantes?” ele pergunta sobre a taxa de sucesso do Safety AI.

Feng aponta para um artigo de 2024 chamado “Eyes Wide Shut?”, escrito por Shengbang Tong, um doutorando da NYU, e coautorado pelo luminar da IA Yann LeCun, que destacou “deficiências sistemáticas” nos VLMs. “Para detecção de objetos, eles podem alcançar um desempenho no nível humano muito bem,” diz Feng. “No entanto, para coisas mais complicadas, essas capacidades ainda precisam ser melhoradas.” Ele observa que os VLMs têm dificuldades para interpretar a estrutura de cenas 3D a partir de imagens 2D, não têm uma boa percepção situacional ao raciocinar sobre relações espaciais e frequentemente carecem de “senso comum” sobre cenas visuais.

Lorenzo admite que existem “algumas falhas grandes” e que eles enfrentam dificuldades com o raciocínio espacial. Por isso, o Safety AI também emprega alguns métodos mais antigos de aprendizado de máquina para ajudar a criar modelos espaciais dos canteiros de obras. Esses métodos incluem a segmentação de imagens em componentes cruciais e fotogrametria, uma técnica consolidada para criar um modelo digital 3D a partir de uma imagem 2D. O Safety AI também foi treinado intensivamente em 10 áreas problemáticas diferentes, incluindo o uso de escadas, para antecipar as violações mais comuns.

Ainda assim, ele reconhece que existem casos extremos que o LLM não conseguirá identificar. Mas observa que, para os gerentes de segurança sobrecarregados, que muitas vezes são responsáveis por até 15 canteiros de obras ao mesmo tempo, ter um conjunto extra de “olhos” digitais ainda é uma melhoria.

Aaron Tan, um gerente de projetos de concreto com sede na área da baía de São Francisco, diz que uma ferramenta como o Safety AI poderia ser útil para esses gerentes de segurança sobrecarregados, que economizariam muito tempo se pudessem receber um alerta por e-mail, em vez de ter que fazer uma viagem de duas horas para visitar um canteiro de obras pessoalmente. E, se o software puder demonstrar que está ajudando a manter as pessoas seguras, ele acredita que os trabalhadores eventualmente irão aceitá-lo.

No entanto, Tan observa que os trabalhadores também temem que esses tipos de ferramentas sejam “softwares de vigilância” usados para colocá-los em apuros. “Na minha última empresa, implementamos câmeras [como] um sistema de segurança. E os caras não gostaram disso,” diz ele. “Eles disseram, ‘Ah, o Big Brother. Vocês estão sempre me vigiando, não tenho privacidade.’”

Mais velho não significa obsoleto

Izhak Paz, CEO da Safeguard AI, empresa com sede em Jerusalém, considerou incorporar VLMs, mas optou por continuar com o paradigma mais antigo de aprendizado de máquina porque o considera mais confiável. A “visão computacional antiga”, baseada em aprendizado de máquina, “ainda é melhor, porque é híbrida entre a máquina em si e a intervenção humana no tratamento de desvios,” diz. Para treinar o algoritmo em uma nova categoria de perigo, sua equipe agrega um grande volume de imagens rotuladas relacionadas ao risco específico e, em seguida, otimiza o algoritmo eliminando falsos positivos e falsos negativos. O processo pode levar de semanas a mais de seis meses, revela.

Com o treinamento concluído, o Safeguard AI realiza uma avaliação de risco para identificar potenciais perigos no canteiro de obras. Ele pode “ver” o local em tempo real ao acessar imagens de qualquer câmera conectada à internet próxima. Em seguida, utiliza um agente de IA para enviar instruções sobre o que fazer a seguir para os dispositivos móveis dos gerentes do canteiro. Paz se recusa a dar um preço exato, mas afirma que seu produto é acessível apenas para construtores de nível “médio” para cima, especificamente aqueles que gerenciam vários locais. A ferramenta está em uso em cerca de 3.500 sites em Israel, nos Estados Unidos e no Brasil.

A Buildots, uma empresa com sede em Tel Aviv que a MIT Technology Review destacou em 2020, não faz análise de segurança, mas cria relatórios visuais de progresso do canteiro de obras uma ou duas vezes por semana. Ela também usa o método mais antigo de aprendizado de máquina com dados de treinamento rotulados. “Nosso sistema precisa ser 99% preciso. Não podemos ter alucinações,” diz o CEO Roy Danon.

Ele afirma que obter dados de treinamento rotulados é muito mais fácil agora do que quando ele e seus cofundadores começaram o projeto em 2018, pois coletar imagens de vídeo dos canteiros de obras significa que cada objeto, como uma tomada, pode ser capturado e rotulado em muitos quadros diferentes. Mas a ferramenta é de alto nível. Cerca de 50 construtores, a maioria com receita superior a 250 milhões de dólares, estão usando a Buildots na Europa, no Oriente Médio, na África, no Canadá e nos EUA. Já foi utilizada em mais de 300 projetos até agora.

Ryan Calo, especialista em robótica e direito da IA da Universidade de Washington, gosta da ideia de IA para segurança na construção. No entanto, como os gerentes de segurança experientes já estão sobrecarregados na construção, Calo se preocupa que os construtores sejam tentados a automatizar completamente o processo de segurança, substituindo os humanos. “Eu acho que IA e drones para detectar problemas de segurança que, de outra forma, matariam trabalhadores é superinteligente,” diz ele. “Desde que seja verificado por uma pessoa”.

Último vídeo

Nossos tópicos