“Dados são o novo petróleo” se tornou um bordão repetido à exaustão, mesmo que cada vez mais líderes já tenham superado este ponto, e criado estratégias de negócio orientadas por dados. A evolução deste debate agora abarca pontos como formas ideais de geração de dados que apoiem o Santo Graal de insights que toda organização deseja.
Grande parte do tempo de cientistas de dados ainda é gasto em coleta, limpeza e outras tarefas manuais para que dados possam ser finalmente “digeridos” por sistemas de análise, como anotações e categorizações. Se a ideia é focar tempo das equipes no que realmente interessa, ou seja, extrair informações valiosas e acionáveis de dados, a atual situação é insustentável.
Tecnologias para a análise avançada de dados já deixaram de ser uma barreira há alguns anos, mas o acesso a dados de qualidade ainda é um problema para a grande maioria das organizações globais. Isso faz com que uma mudança drástica nos padrões atuais de alimentação e treinamento de sistemas de inteligência artificial (IA) se torne necessária.
Atualmente, modelos matemáticos usados para treinar motores de IA ainda se valem em sua grande maioria de dados reais, que são obtidos através de medidas diretas – e, não raro, extremamente laboriosas. Desenvolver modelos matemáticos extremamente assertivos requer uma massa de dados significativa. Considerando este requisito, existem dois desafios iniciais: o tempo e o custo necessários para chegar neste ponto com dados reais. Além disso, existem outras implicações que impedem a obtenção de dados em larga escala, que incluem desde desafios logísticos até leis de proteção de dados e questões éticas.
Para atingir o potencial máximo da IA e tecnologias como visão computacional, é preciso atender à demanda por dados que estes sistemas geram, com a democratização do acesso a dados para o treinamento de plataformas, que esteja em conformidade com as regras de proteção de dados, além da possibilidade de fazer a categorização de dados de forma rápida e simples. Para resolver estes impasses, entram em cena os dados sintéticos.
Adoção acelerada
Dados sintéticos – que são gerados artificialmente e podem ser utilizados no lugar de dados históricos reais, ou quando estes não têm a qualidade, variedade ou volume desejados – se apresentam como uma real alternativa para endereçar os desafios enfrentados por organizações orientadas por dados. Apontada por esta revista como uma das Breakthrough Technologies para 2022 junto a outras tecnologias emergentes, como fábricas de remoção de carbono, a abordagem baseada em dados sintéticos é um instrumento de aceleração de processos de inovação em organizações.
De acordo com esta visão, o que se estima é que modelos matemáticos serão trabalhados predominantemente com base em dados artificiais, reduzindo de forma significativa a atual dependência de dados reais. Apesar de esta discussão ainda ser relativamente incipiente, a previsão é que a curva de adoção de dados gerados artificialmente acelere de forma expressiva, em um curto espaço de tempo. Segundo projeções da consultoria Gartner, cerca de 60% dos dados usados para o desenvolvimento de projetos de IA e análise de dados serão gerados sinteticamente até 2024 – comparativamente, este era o caso em apenas 1% dos projetos em 2021. Considerando o avanço iminente desta tendência, líderes devem se familiarizar com as possibilidades à frente e problemas que dados sintéticos podem resolver, e refletir sobre o papel que esta abordagem pode desempenhar em seus negócios.
Futuro promissor
Como já dizia a música, o futuro não é mais como era antigamente – e esta foi uma constatação a qual muitos líderes de negócio chegaram desde a emergência da Covid-19. Modelos e estimativas usadas anteriormente com dados históricos perderam grande parte de sua utilidade diante de movimentos sem precedentes. Além disso, lacunas deixadas por dados reais inviabilizaram o pleno funcionamento de algoritmos, provocando um reset na forma em que organizações tomam decisões.
Para além de uma simples correção do atual estado das coisas, dados sintéticos apresentam uma série de vantagens. Em uma avaliação do modelo, a empresa de pesquisa IDC identifica a possibilidade de treinar modelos com um conjunto de dados mínimo, e ao mesmo tempo preservar a privacidade dos dados iniciais. Além disso, os analistas consideram que a abordagem deve contribuir para reduzir vieses no treinamento de sistemas que fazem utilização intensiva de dados. Neste contexto, dados sintéticos são vistos como um importante instrumento para aprimorar sistemas de reconhecimento facial, que têm gerado controvérsias ao redor do mundo – em particular em relação a grupos sub-representados – com falhas que resultam do treinamento em bases de dados limitadas e não-calibradas.
Aplicações de dados sintéticos podem ser encontradas em diversos setores: por exemplo, a Waymo, empresa do grupo que detém o Google, que utiliza dados gerados artificialmente para treinar seus veículos autônomos. Através do software de uso interno SimulationCity, a empresa sintetizou jornadas completas automaticamente para avaliar a performance dos veículos, emulando desde o comportamento de motoristas agressivos até simulações completas do ambiente ao redor do carro, incluindo objetos físicos como árvores e condições climáticas como chuva. Através de seu braço de pesquisa científica Amazon Science, a Big Tech estuda o uso de dados sintéticos em diversas áreas e usa a abordagem em várias frentes, incluindo o treinamento do sistema de sua assistente de voz Alexa, e imagens sintéticas, para o reconhecimento de imagens em sua rede de lojas de conveniência Amazon Go.
Além destes cases, o setor de serviços financeiros e saúde estão entre os que devem se beneficiar do uso de dados sintéticos de forma particularmente relevante. Em serviços financeiros, o uso de AI é uma importante alavanca de redução de custos – a tecnologia tem o potencial de gerar US$ 447 bilhões até 2023, segundo dados da pesquisa AI in Finance, da Business Insider. Porém, empresas do setor encontram certas limitações em fazer pleno uso da tecnologia, visto que informações como detalhes de uso de cartões de crédito e extratos estão entre os mais facilmente identificáveis e sensíveis tipos de dados. Por este motivo, bancos como o JP Morgan usam dados financeiros sintéticos na prevenção de fraudes e lavagem de dinheiro, para endereçar os desafios relativos à privacidade e em outras frentes, como limitações de técnicas de preservação de dados confidenciais. Ao mesmo tempo, a possibilidade de usar dados sintéticos apoia a sofisticação de modelos de aprendizado de máquina no setor financeiro, que costumam ter um grande apetite por dados.
Em saúde, redes neurais podem ser usadas para identificar condições como melanomas, mas modelos de aprendizado estruturado profundo dependem de dados anotados e categorizados para ter um bom desempenho. Sistemas de AI também podem ser instrumentais em pesquisa para identificar padrões. Mas dados de saúde de pacientes não podem ser facilmente compartilhados, o que cria entraves para o pleno funcionamento de plataformas baseadas em AI. Neste setor, dados sintéticos facilitam a replicação de diversos modelos e é particularmente útil em áreas onde dados são escassos, como no estudo de condições raras, ao mesmo tempo em que também mitigam questões relacionadas a confidencialidade dos dados e acesso a eles. A Roche, gigante do ramo farmacêutico, está entre as companhias que tem utilizado dados médicos sintéticos para apoiar pesquisas clínicas em áreas como oncologia.
Combinada à resolução de problemas em que o uso de dados se mostra complexo ou impossível, estudos de caso iniciais e projeções apontam para um futuro promissor, em que dados artificiais podem impulsionar o desenvolvimento de novos modelos de negócio, bem como simular situações que não estão atualmente representadas em dados históricos e até mesmo preencher lacunas de conteúdo e objetos na criação de ambientes no metaverso.
Para as empresas que investirem em dados sintéticos, a simulação de futuros alternativos que podem apoiar o preparo para mudanças que ainda estão por vir será uma possibilidade potencialmente menos complexa.
Apesar das grandes expectativas em relação a tecnologias como Inteligência Artificial, Visão Computacional e outras aqui citadas, organizações têm percebido que estes sistemas demandarão uma quantidade significativa de dados – e que gerar este “alimento” tem se tornado uma tarefa cada vez mais complexa. Portanto, é preciso pensar em alternativas que viabilizem os avanços almejados. Apesar de ainda não termos chegado em um estágio em que dados reais possam ser totalmente eliminados, movimentos na geração sintética deste recurso sugerem que este será o caminho mais sustentável para organizações que querem se preparar para o próximo normal.
Este artigo foi produzido por Marvio Portela, Vice-presidente sênior e gerente geral, EUA, América Latina e Caribe do SAS, e colunista da MIT Technology Review Brasil.