Dados sintéticos: como modelar cenários de forma segura e eficaz na era da IA
Computação

Dados sintéticos: como modelar cenários de forma segura e eficaz na era da IA

Tecnologia traz vantagem competitiva para empresas de diversos setores, superando os desafios relacionados a disponibilidade, acesso ou qualidade dos dados.

O crescimento acelerado da Inteligência Artificial (IA) e do aprendizado de máquina nos últimos anos trouxe à tona a importância de dados de qualidade para o treinamento e desenvolvimento de modelos. No entanto, a coleta e o uso de dados reais frequentemente esbarram em desafios como a escassez de informações, restrições regulatórias e preocupações com a privacidade.

Para suprir essas e outras necessidades, surgiram os dados sintéticos, que são gerados por algoritmos e “imitam” dados do mundo real, replicando suas propriedades estatísticas e características. De acordo com a Gartner, esse tipo de dado representará a maior parte dos acervos utilizados por modelos de IA (mais de 70%) até 2030 e continuarão crescendo. Até 2031, o mercado global de dados sintéticos atingirá US$ 3,5 bilhões (cerca de R$ 17,5 bilhões de reais).

“O dado sintético não é gerado de modo aleatório, sem que você tenha uma base. Ele é um dado que precisa de uma amostra real e de uma ocorrência real para que, a partir de algoritmos de machine learning, de inteligência artificial e de simulação, ele consiga entender o comportamento do dado real para ser construído”, explica Mariana Fontanezzi, costumer advisor do SAS.

Nesse sentido, as informações produzidas artificialmente têm como função reduzir a exposição de dados sensíveis, diminuir o viés na coleta, bem como suprir a falta de dados para análises. De tal maneira, possuem um vasto leque de usabilidades e pode contemplar diversos setores. Combinados com dados reais, os dados sintéticos podem corrigir as deficiências de uma base de dados inicial.

Um dos usos mais promissores dos dados sintéticos é o treinamento de IA generativa, que cria conteúdo novo a partir de padrões aprendidos. “Atualmente, temos acesso a uma grande quantidade de dados, mas eles geralmente representam apenas uma parte da população, sendo enviesados para pessoas brancas, cisgênero e que vivem em áreas urbanas, por exemplo. Se quisermos uma visão mais fiel da sociedade como um todo, podemos criar dados sintéticos relacionados aos grupos sub-representados. Isso permite que os modelos de IA, ao serem treinados, possam refletir de forma mais precisa a diversidade da sociedade”, explica Thais Cerioni, Head de Marketing e Comunicação do SAS.

“Por exemplo, no caso do reconhecimento facial, em geral treinado com imagens de pessoas de perfil ocidental e europeu, podemos criar artificialmente rostos de outras etnias para melhorar o reconhecimento facial em toda a população”, diz Thais.

Mini Banner - Assine a MIT Technology Review

Privacidade e ética

Uma das maiores preocupações com o uso de dados em IA é a privacidade. Em setores altamente regulamentados, como o de saúde e o financeiro, o uso indevido de informações pessoais pode resultar em sérias consequências legais e financeiras. Como os dados sintéticos são gerados artificialmente, eles não contêm informações pessoais, o que os torna uma excelente alternativa aos dados reais. Isso permite que as empresas treinem e testem seus modelos sem comprometer a privacidade dos indivíduos envolvidos.

Os dados sintéticos podem ser desenvolvidos para refletir os mais variados cenários e, dessa forma, se tornam um complemento ou alternativa aos dados reais. Possibilitando, assim, a construção de informações melhores para a construção de modelos de IA mais precisos e abrangentes.

As organizações podem utilizar essa base sintética para testar novos sistemas em situações em que não há dados suficientes disponíveis, em que dados existentes são tendenciosos ou quando os dados reais não podem ser usados, compartilhados ou movidos.

Além disso, alimentar uma IA com dados reais pode ser caro, tanto em termos de coleta quanto de processamento. Dados sintéticos, por outro lado, podem ser gerados de maneira mais econômica e em grande escala. “Por exemplo, uma empresa que coletou um dado para uma determinada análise, mas precisa de volume maior e não tem dinheiro para uma nova coleta. Com os dados sintéticos, ela consegue, a partir dos dados já coletados, aumentar sua amostra para chegar num resultado mais valioso e mais acurado”, aponta Mariana Fontanezzi, Customer Advisor do SAS Brasil.

Além de reduzir os custos associados à aquisição de dados, a tecnologia acelera o ciclo de desenvolvimento de soluções de IA. Com dados sintéticos, as empresas podem realizar testes e simulações mais rapidamente, sem a necessidade de coletar e processar novos conjuntos de dados reais a cada iteração do modelo. Essa capacidade de gerar dados sintéticos sob demanda também permite que as empresas otimizem seus recursos de TI, reduzindo a necessidade de armazenamento e processamento de grandes volumes de dados reais.

Entre desafios e soluções

Idealmente, gerar e usar dados sintéticos requer etapas de verificação adicionais para garantir a fidelidade dos resultados. Todavia, a geração de dados sintéticos que possam simular eventos raros, como desastres naturais ou crises financeiras, é particularmente desafiadora. Esses eventos são, por definição, incomuns, e a criação de dados que os representem de maneira precisa requer uma abordagem mais sofisticada.

Mesmo assim, o Gartner aponta que, à medida que os dados sintéticos ganharem adoção mais ampla, os líderes empresariais podem levantar questões sobre a abertura das técnicas de geração de dados, especialmente quando se trata de transparência em operações financeiras.

Uma das preocupações tem sido a mitigação de fraudes. Dada a baixa incidência do crime – o que em si representa algo positivo – os bancos não possuem uma base de dados históricos suficiente para antecipar e evitar fraudes antes que elas aconteçam.

“Nesse sentido, um modelo de machine learning não consegue gerar uma boa modelagem, porque há uma baixa ocorrência de clientes que cometeram fraude – ou seja, uma amostra pequena de dados”, explica Fontanezzi. De acordo com a Customer Advisor do SAS, o dado sintético “consegue pegar esses casos de fraude, estudar o comportamento deles, e criar novos dados, aumentando a amostra para ajudar os bancos a criarem modelos mais robustos”, conclui.

Superando desafios

Pensando em todos esses benefícios, o SAS anunciou em novembro deste ano a aquisição dos principais ativos de software da Hazy, pioneira em tecnologia de dados sintéticos. A aquisição é estratégica para o SAS, que visa aprimorar seu robusto portfólio de dados e IA, munindo ainda mais seus clientes com recursos críticos e oportunos de geração de dados sintéticos, enquanto o uso de inteligência artificial se expande rapidamente.

Último vídeo

Nossos tópicos