A fundamentação teórica para a Ciência de Dados inclui um conjunto de disciplinas matemáticas, como álgebra linear, probabilidade, estatística e cálculo. Todas elas são importantes em projetos da área, incluindo aplicações de aprendizado de máquina (em inglês, machine learning), aprendizado profundo (deep learning) e Inteligência Artificial Generativa.
Álgebra linear
Uma ferramenta extremamente poderosa, a álgebra linear fornece a capacidade de representar e manipular dados multidimensionais de forma compacta e bastante eficiente. Uma das suas características mais importantes é permitir que os cientistas de dados pensem os problemas complexos na forma de vetores e matrizes geométricas. Por exemplo, uma matriz pode ser visualizada como uma transformação linear que mapeia um espaço vetorial em outro.
As propriedades dessas transformações, como, por exemplo, autovalores e autovetores, podem revelar informações importantes sobre a estrutura dos dados analisadas. Uma aplicação prática é a análise de redes sociais, onde o autovetor representa a importância dos nós dentro de uma rede de relacionamentos. No mundo das mídias sociais, esses nós seriam os influenciadores. A própria rede pode ser representada na forma de matriz, com todos os nós como linhas e colunas e as interseções como o peso dos relacionamentos.
Outro aspecto fundamental dessa disciplina é a forma como ela conecta diferentes áreas da matemática. Por exemplo, a álgebra linear está intimamente ligada ao cálculo e às equações diferenciais. Esta conexão permite a sua utilização na resolução de problemas complexos em diferentes áreas, não apenas da matemática.
Em ciência de dados, ela é bastante utilizada em um conjunto de aplicações práticas, desde os modelos de aprendizado de máquina, passando por tarefas de compressão de dados, até aplicações de processamento de imagens.
Em aprendizado de máquina, a álgebra linear é utilizada para buscar os parâmetros de um modelo (pesos dos neurônios em uma rede neural artificial) e realizar operações como multiplicações e inversões de matrizes. Estas operações são realizadas na fase de treinamento, quando os parâmetros do modelo são atualizados por meio de algoritmos de otimização com o objetivo de reduzir o erro das estimações.
Ela ainda se faz presente na avaliação dos modelos. Esse processo permite que os modelos de aprendizado de máquina capturem os padrões contidos nos dados analisados e façam predições sobre os eventos considerando dados futuros. Na redução dimensional, a álgebra linear atua nas variáveis de entrada para os modelos analíticos. A análise de componentes principais a utiliza para combinar e reduzir o conjunto de dados inicial, obtendo a máxima variância possível por meio de combinações lineares ortogonais.
Em processamento de linguagem natural, a álgebra linear é utilizada para converter as palavras em vetores numéricos por meio de fatoração de matrizes. Isso permite que os algoritmos compreendam relações semânticas entre as palavras e possam personalizar recomendações. Em processamento de imagens, a álgebra linear é usada em operações de convolução, filtro e compressão das imagens originais, criando uma matriz menor, chamada núcleo. Seu uso na multiplicação de diferentes sobreposições da imagem permite a criação de um mapa de características, que é fundamental nas operações de reconhecimento de imagem, como identificação de contornos, manchas e classificações de conteúdos específicos.
Teoria das probabilidades
Para tratar de questões que envolvem aleatoriedade e incertezas, o braço da matemática que fornece ferramentas úteis é o da teoria das probabilidades. Elas são importantes para quantificar as possibilidades de diferentes resultados e fazer predições a respeito de eventos futuros com base em observações pregressas. A teoria das probabilidades é importante no entendimento de diferentes cenários relacionado à um problema, na modelagem de sistemas complexos e no suporte à tomada de decisões baseada em dados.
Uma técnica fundamental usada em ciência de dados é a inferência Bayesiana. Este método utiliza o teorema de Bayes para ajustar os modelos com base em probabilidades de diferentes eventos de acordo com novas informações ou evidências. É a fórmula matemática utilizada para determinar uma probabilidade condicional, ou seja, a possibilidade de um evento ocorrer dado um conhecimento prévio em uma circunstância similar. Em estudos médicos, por exemplo, esta inferência pode ser muito útil em ajustar a probabilidade de um diagnóstico baseado em resultados de novos exames e testes. A chance de um paciente ter realmente uma doença pode ser calculada com base em um teste positivo, considerando também as taxas de testes falso-positivos e a prevalência da doença.
Assim como a álgebra linear, a teoria das probabilidades também é usada no aprendizado de máquina. Ela é útil para estimar parâmetros de um modelo e avaliar o seu desempenho considerando bases de validação e teste. Um modelo de classificação estima a chance de ocorrência de cada uma das classes da variável dependente dado um conjunto de variáveis independentes e suas distribuições. A análise das distribuições de probabilidades também descreve as chances de diferentes resultados em experimentos aleatórios.
A teoria das probabilidades pode ser aplicada em outras áreas da ciência de dados, como planejamento de experimentos, inferência estatística e análise de decisões. Em planejamento de experimentos, ela é utilizada para determinar o tamanho ótimo de uma amostra de dados necessária para detectar diferenças significativas entre grupos de observações. Os princípios de probabilidade são úteis em processos de randomização e replicação. Esse processo controla o erro experimental e melhora a confiabilidade dos resultados, assegurando que as avaliações sejam válidas e menos enviesadas.
A Inteligência Artificial Generativa se baseia nas teorias probabilísticas para aprender padrões complexos nos dados existentes e então gerar novos conteúdos por meio de previsões dos resultados mais frequentemente esperados.
Estatística
As ferramentas de interpretação dos dados de entrada, dos resultados dos modelos e das análises realizadas da estatística estão intimamente ligados à ciência de dados. Grande parte dos projetos envolve observação das informações associadas ao estudo realizado, conectando os resultados aos objetivos do negócio. Isso faz com que a estatística seja um fator chave em qualquer atividade analítica.
Com o avanço das tecnologias, da capacidade de processamento, e da facilidade de se implementar algoritmos complexos de aprendizado de máquina, a interpretação dos resultados passa a ser uma etapa fundamental nos projetos de ciências de dados. Da estatística inferencial à descritiva, essas disciplinas fornecem uma variedade de técnicas para extração de conhecimento e interpretação de cenários e hipóteses.
Ela é muito utilizada como forma de dar um sentido concreto aos padrões e relacionamentos existentes em dados complexos. Uma das aplicações mais relevantes são os testes de hipótese. Esse processo consiste em validar ou refutar um possível relacionamento entre variáveis. Por exemplo, em um estudo médico, é comum testar se o uso de uma determinada droga é mais eficiente do que o placebo e, no marketing, se uma campanha gera efetivamente uma mudança no comportamento do cliente. Análise de variância, testes t, F, Z, p-valor e qui-quadrado, são algumas das técnicas utilizadas para analisar os dados e direcionar conclusões a respeito das amostras em estudo.
Em aprendizado de máquina, a estatística é importante no processo de estimação dos parâmetros dos modelos e, sobretudo, na avaliação dos resultados. Em uma regressão linear, por exemplo, a estatística é utilizada para se estimar os coeficientes do modelo e testar se ele está bem ajustado aos dados analisados, sejam de treinamento ou teste. É importante que ele generalize suas estimações em dados futuros de forma semelhante às predições em dados pregressos.
Na visualização de dados, a estatística é usada para sumarizar as informações e descrevê-las de maneira suscinta, seja por meio de medidas centrais de tendencia, ou por gráficos que representem visualmente os padrões detectados.
Com o crescimento contínuo dos dados gerados a partir de diferentes dispositivos e sensores, como no uso da Internet das Coisas (Internet of Things), as técnicas estatísticas passam a ser fundamentais no gerenciamento, processamento e extração de conhecimento útil a partir dessa quantidade massiva de informações.
A análise estatística também ajuda a endereçar questões importantes relacionadas com a ética em Inteligência Artificial. A estatística fornece ferramentas para detectar e mitigar vieses em dados de treinamento e validação, assim como nos resultados dos modelos. Esses métodos identificam instabilidades ou distorções históricas, que podem direcionar à resultados injustos ou questionáveis. Detectados esses vieses, técnicas estatísticas podem ser utilizadas para corrigir essas discrepâncias, como, por exemplo, um rearranjo das amostras para melhor representatividade das classes analisadas.
Modelos estatísticos de fácil interpretação podem ser utilizados como métodos de explicação para algoritmos “caixas-pretas”, como redes neurais artificiais ou máquinas de vetores de suporte. Eles preveem a resposta dos modelos não interpretáveis e ajudam a explicar a contribuição das variáveis de entrada nas predições feitas. Todas estas iniciativas de ética e responsabilidade em Inteligência Artificial ajudam as organizações a demonstrarem transparência nas suas ações e decisões, seguindo regulamentações de proteção de dados e minimizando riscos legais.
Cálculo
O estudo das alterações em razoes ou proporções, que revelam tendências e mudanças ao longo do tempo ou do espaço, é baseado no cálculo. É uma disciplina fundamental para várias aplicações de Inteligência Artificial, fornecendo ferramentas para se trabalhar com grandes bases de dados e na construção de modelos complexos.
Ele é muito utilizado em processos de otimização, os quais requerem a busca por soluções ótimas, considerando um conjunto de restrições e recursos associados à um problema. Umas das aplicações mais populares é o algoritmo de otimização gradiente descendente. Ele é peça-chave na busca do melhor conjunto de hiper parâmetros em modelos de aprendizado de máquina. Esta técnica envolve atualizar iterativamente os parâmetros do modelo de forma a minimizar ou maximizar uma função objetivo. No caso de modelos de aprendizado de máquina, o objetivo é sempre minimizar o erro entre os resultados previstos e os observados.
O cálculo é utilizado para dimensionar o gradiente descendente de uma função objetivo, fornecendo a direção de descida mais íngreme possível, oposta ao gradiente. Também é aplicado em outras técnicas de otimização, como nos métodos de Newton e quasi-Newton, que consistem em encontrar a raiz de uma função através de uma atualização interativa, melhorando continuamente uma estimação inicial. Variações destes métodos são usadas para atualizar os pesos dos neurônios em modelos de redes neurais durante o processo de treinamento. Também podem ser usados no ajuste de dados e na identificação de tendências escondidas. Em modelagem estatística, eles são usados em algoritmos de estimação por máxima verossimilhança, atualizando os parâmetros que maximizam a função de probabilidade.
A análise de series temporais, o processamento de sinais, e os sistemas dinâmicos também precisam do cálculo. Em séries temporais, ele é empregado no cálculo das derivadas e integrais dos dados longitudinais, usadas para identificar tendências e padrões nas informações ao longo do tempo. O seu uso ainda se mostra fundamental em modelos de séries temporais mais avançados, como as equações diferenciais ordinárias neurais, para modelar séries em tempo contínuo, ou ainda as redes neurais recorrentes, para modelar séries em tempo discreto.
A geração de dados sintéticos, fundamental em processos de Inteligência Artificial Generativa, assim como na melhoria contínua de modelos de aprendizado de máquina, são também objetos de aplicação do cálculo. As redes adversárias generativas utilizam duas redes neurais competindo entre si, uma gerando dados a partir de uma entrada aleatória e a outra discriminando se os dados gerados são reais ou sintéticos.
O processo de treinamento das redes geradoras e discriminadoras se baseia em cálculo diferencial. As duas redes são treinadas simultaneamente em um processo de soma zero, cada uma tentando otimizar seu próprio objetivo. A rede geradora usa o gradiente ascendente da rede discriminadora para maximizar a chance de ela cometer um erro. A rede discriminadora usa o gradiente descendente para minimizar o seu próprio erro. Outras aplicações específicas do cálculo envolvem modelos complexos de otimização aplicados à logística e estoque, calculando derivadas parciais para identificar taxas de mudanças nos custos associados à diversos fatores de impacto.
Matemática na base de tudo
A fundamentação matemática é essencial para a compreensão dos princípios relacionados com as mais diversas aplicações atualmente implementadas em ciência de dados. A álgebra linear como forma de representar dados e algoritmos. A teoria das probabilidades como forma de modelar incertezas e aleatoriedades, além de realizar predições baseadas em dados. A estatística como forma de inferência de conhecimento a partir dos dados que descrevem um cenário ou problema, assim como também realizar estimações baseadas em dados. E o cálculo como forma de modelar o comportamento de sistemas complexos e de otimizar funções buscando o aprimoramento dos modelos de aprendizado de máquina.
Estas disciplinas continuarão fundamentais no avanço tecnológico da Inteligência Artificial. As aplicações, que podem revolucionar as indústrias de saúde, finanças e transporte, continuarão baseadas nos princípios da matemática. Em automação e personalização, ainda serão fortemente vinculadas aos princípios da álgebra, do cálculo, da probabilidade e da estatística. Existem outras disciplinas da matemática que também apoiam aplicações de ciências de dados, assim como diversas outras aplicações neste campo não descritas aqui. Contudo, estas quatro criam um bom alicerce teórico para as aplicações de ciência de dados, e é importante que o profissional da área tenha um entendimento sólido delas. De forma geral, os processos de tomada de decisão nas diferentes organizações continuarão a ser embasados em aplicações de ciência de dados, as quais são implicitamente fundamentadas nas disciplinas da matemática.
O avanço da Inteligência Artificial também passa pela expansão da utilização da matemática em determinados seguimentos, como teoria de grafos, otimização avançada e computação quântica. Seus paradigmas atuais estão intrinsicamente associados com as fundamentações matemáticas e um melhor entendimento dessas teorias.