Anonimização e auditoria de dados
A anonimização é um dos procedimentos recomendados pela LGPD para garantir que dados pessoais não sejam utilizados de forma desnecessária, excessiva ou em desconformidade com a regulamentação. Dados pessoais são todos aqueles que podem identificar uma pessoa, tais como nome e sobrenome, CPF, idade, endereço, gênero, entre outros. A anonimização deve ser sempre aplicada nas instituições de saúde pública, órgãos de pesquisa, instituições bancárias, assim como em qualquer empresa que trate dados de pessoas físicas.
Grande parte das atividades online tem requerido compartilhamento de dados pessoais e dados sensíveis (tais como orientação ou informações relativas à vida sexual, origem racial ou étnica, opiniões políticas, convicções religiosas ou filosóficas, dados genéticos biométricos tratados para identificação e dados relacionados à saúde), o que deixa toda a sociedade preocupada com a privacidade de suas informações. Portanto, para que a segurança não seja um problema, é exigido por lei que as empresas utilizem, em suas plataformas digitais, mecanismos técnicos que impossibilitem, de forma direta ou indireta, a associação de um dado tratado por elas a um indivíduo específico, de forma que este não seja identificado publicamente. Essa ação permite que haja compartilhamento seguro dos dados anonimizados, quando necessário, tornando-os úteis, mas sem ameaçar a privacidade das pessoas.
Existem variados mecanismos de anonimização, que, se usados de forma combinada, podem ter resultados potencializados. Alguns deles são:
- Supressão de atributos: refere-se à remoção de uma seção inteira (também denominada “coluna” em bases de dados e folhas de cálculo) no conjunto de dados;
- Supressão do registro: refere-se à remoção de registro inteiro em um conjunto de dados. Em contraste com a maioria das técnicas, ela afeta vários atributos ao mesmo tempo;
- Encobrimento de caracteres: é uma alteração de caracteres no valor dos dados, usando um símbolo constante (“*” ou “x”), por exemplo. O encobrimento é tipicamente parcial, ou seja, aplicado somente a alguns caracteres no atributo;
- Adição de ruídos: para alcançar a privacidade diferencial, pode-se adicionar ou subtrair dados de uma pesquisa, de forma a dificultar a atribuição de um indivíduo a um conjunto de dados. O resultado de um algoritmo específico parecerá essencialmente o mesmo, ainda que as informações dos indivíduos estejam incluídas ou omitidas. A adição de ruído a um conjunto de dados pode torná-lo menos útil;
- Generalização: redução deliberada na precisão dos dados. Técnica também denominada de recodificação;
- Troca: o objetivo é reorganizar os dados no conjunto de dados de tal forma que os valores dos atributos individuais ainda estejam apresentados no conjunto, mas geralmente sem corresponder ao registro original.
Um exemplo de tipo de ferramenta utilizada para anonimizar dados é o modelo “K-Anonimato”, que utiliza, em sua concepção, a técnica de “generalização” mencionada anteriormente. É um dos modelos utilizados, por exemplo, pelo Google.