Oferecido por
Como manter a privacidade enquanto é preciso extrair o máximo dos dados? A Privacidade Diferencial aborda o paradoxo de não concluir nada sobre um indivíduo enquanto conclui informações úteis sobre um conjunto de indivíduos, lidando com esse conflito por meio de uma definição matemática rigorosa de privacidade.
Um algoritmo que analisa dados pode ser definido como diferencialmente privado se o output (dados de saída) não puder ser utilizado para determinar se os dados de um indivíduo constavam no conjunto de dados original em que os cálculos foram realizados. A garantia de um algoritmo diferencialmente privado é de que seu resultado dificilmente sofrerá alterações quando os dados de um único indivíduo é inserido ou deletado do dataset, independentemente de quão excêntrico possa ser.
Para isso, é adicionado ruído ao dataset para que nenhum detalhe específico sobre um indivíduo possa ser determinado. O volume de ruído requerido está relacionado com o tamanho do próprio conjunto de dados: conforme um conjunto cresce, menos ruído precisa ser usado para atingir a mesma privacidade resultante para cada indivíduo. Em um conjunto de dados contendo informações de dois indivíduos, cada indivíduo representa 50% do conjunto de dados. Será necessário adicionar uma quantidade maior de ruído para garantir que os dados de ambos os indivíduos sejam mantidos em sigilo. Por outro lado, um conjunto de dados com um milhão de pessoas fará com que cada pessoa constitua 0,000001% do conjunto de dados, exigindo assim menos ruído para seu mascaramento.
A métrica do ruído é medida por um valor conhecido como épsilon (ϵ), que tem uma relação inversa ao ruído ou à privacidade. Valores mais altos de ϵ indicam respostas mais precisas e menos privadas; já o baixo ϵ fornece respostas altamente aleatórias que não permitem que os invasores aprendam muito. Quanto menor o épsilon, mais ruído (e mais privacidade) os dados têm.
Como seria um cenário de Privacidade Diferencial?
Suponha-se que um atacante esteja visualizando dados e queira verificar em qual região um indivíduo mora, além de ter obtido uma informação básica sobre as outras 99 pessoas no estudo, sabendo assim que 40 pessoas residem na zona norte e 59 na zona sul. Então, é deduzível que Franz, a 100ª pessoa no banco de dados, é a 60ª pessoa residente na zona sul.
Esse tipo de ataque é chamado de ataque diferenciado ou ataque de vinculação, e a defesa é complexa: não há como controlar quanto conhecimento alguém pode conseguir, especialmente se outros atributos estiverem relacionados (imaginemos também que a zona sul seja uma região de prática de navegação e que haja um conhecimento prévio de que Franz é proprietário de veleiro, portanto reforçando a possibilidade de Franz residir na região). A privacidade diferencial tem como objetivo a defesa contra esse tipo de ataque.
A dedução de uma zona de residência pode não parecer muito sensível, porém se substituirmos por resultados de testes de doenças, por exemplo, a potencial e grave invasão de privacidade é mais visível. O mecanismo de adição do ruído aleatório aos dados agregados no exemplo anterior pode resultar que o número de pessoas que residem na zona sul seja 59 ou 61, em vez do número exato de 60. O número impreciso preserva a privacidade de Franz e terá pouco impacto no padrão: cerca de 60% das pessoas residem na zona sul.
O modelo de privacidade diferencial garante que mesmo que alguém tenha informações completas sobre 99 de 100 pessoas em um conjunto de dados, não possa deduzir as informações sobre a pessoa final, barrando as inferências.
Por óbvio, nem todos os aspectos da Privacidade Diferencial são convenientes: há uma desvantagem sobre a usabilidade e a confiabilidade dos dados, uma vez que há a perda de precisão, essenciais em determinadas análises. Mas, exceto nessa categoria de análise onde a granularidade é mandatória, por que não experimentar um mecanismo diferencialmente privado?
Privacidade é uma medida quantificável?
Uma sensação binária é comum sobre a privacidade: os dados do indivíduo foram expostos ou não. A Privacidade Diferencial entende como uma questão de risco acumulativo, quantificável. Podemos classificar as estratégias de preservação da privacidade e dizer qual é a mais eficaz. Podemos projetar estratégias robustas até mesmo contra atacantes que possuem informações auxiliares. E podemos fazer isso simultaneamente.
Ou seja, cada vez que os dados de uma pessoa são processados, o risco de exposição aumenta. Para tanto, a definição de privacidade diferencial é dotada de parâmetros que quantificam a “perda de privacidade”, o risco adicional para um indivíduo decorrente de toda a cadeia de processamento de seus dados.
Apesar de relevante, em especial pelas discussões atuais de privacidade acentuadas no Brasil em decorrência da LGPD, o método foi desenvolvido na Microsoft em 2006 por um grupo de pesquisa liderado por Cynthia Dwork. Não trata-se de uma novidade e sim de um mecanismo com potencial a ser explorado ainda. Esse conceito pode dar uma contribuição importante para proteger a privacidade dos usuários e continuar a usar os benefícios da análise dos dados do usuário com sucesso.
Esse artigo foi produzido por Sofia Marshallowitz, Especialista em Privacidade de Dados no QuintoAndar e colaboradora da MIT Technology Review Brasil.