Qu’entend-on par anonymiser ?
L’anonymisation est une technique permettant d’empêcher de manière irréversible l’identification d’une donnée. L’anonymisation consiste à changer le contenu ou la structure même des données, de sorte que toutes les informations directes ou indirectes pouvant permettre l’identification d’une personne soient supprimées ou modifiées. Anonymiser une donnée suppose donc la suppression de l’identité de la personne à qui cette donnée se rapporte, rendant donc impossible la ré-identification de la personne à partir de cette donnée, et ceci même après traitement.
Pourquoi anonymiser les données ?
Cette technique ouvre des potentiels de réutilisation des données initialement interdits du fait du caractère personnel des données exploitées, et permet ainsi aux acteurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données au-delà de leur durée de conservation.
Le RGPD ne s’applique pas aux données anonymisées dans la mesure où l’utilisation de ces données n’ont pas d’impact sur les droits et libertés des personnes concernées.
Quelles différences avec la pseudonymisation ?
La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.). La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces. L’opération de pseudonymisation est également réversible, contrairement à l’anonymisation.
Quels procédés utilisés pour anonymiser les données ?
Deux grandes méthodes existent pour anonymiser les données. Il s’agit de :
– La randomisation : cette méthode permet la destruction du lien entre la donnée et la personne, par l’emploi de techniques telles que la troncature, la substitution, la suppression ou la mise à blanc.
– La généralisation : cette méthode se caractérise par la dilution de la donnée, ou sa généralisation par modification de sa précision, de son échelle et de sa grandeur.
Comment s’assurer que l’anonymisation est effective ?
Les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :
– Individualisation :
-
- ll ne doit pas être possible d’isoler un individu dans le jeu de données
- Ex : une base de données de CV où seuls les nom et prénoms d’une personne auront été remplacés par un numéro (qui ne correspond qu’à elle) permet d’individualiser cette personne. Dans ce cas, cette base de données est considérée comme pseudonymisée et non comme anonymisée.
– Corrélation :
-
- Il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu
- Ex : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme si d’autres bases de données, existantes par ailleurs, contiennent ces mêmes adresses avec d’autres données permettant d’identifier les individus.
– Inférence :
-
- Il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.
- Ex : si un jeu de données supposément anonyme contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, que tous les hommes ayant entre 20 et 25 ans qui ont répondu sont non imposables, il sera possible de déduire, si on sait que M. X, homme âgé de 24 ans, a répondu au questionnaire, que ce dernier est non imposable.