Anonymisation et pseudonymisation des données au CDSP

Le Centre de données socio-politiques a publié dans la revue Statistique et société ses bonnes pratiques d’anonymisation des données quantitatives d’enquêtes.

On y apprend que

les modifications opérées sur les données au sein du CDSP procèdent surtout par généralisation, jamais par randomisation, de façon à ne pas modifier l’exactitude des données. Cette généralisation se fait habituellement sur les variables clefs d’identification directe, soit des variables socio-démographiques.

Mais

malgré ces procédures, un enjeu important soulevé par les ingénieurs du CDSP est le fait qu’en croisant un nombre suffisant de variables, il reste possible d’isoler un individu, notamment dans le cas des jeux de données comportant moins de deux mille personnes. Afin de rendre ce risque moins probable, le CDSP procède à des recodages afin d’agréger certaines modalités de variables problématiques. A cet égard, la variable la plus souvent anonymisée est l’âge précis, ainsi que les variables liées à la commune d’habitation du répondant.

Surtout,

les ingénieurs du CDSP s’interrogent désormais sur le type de diffusion des données et le risque d’identification afférant. Le CDSP a donc mis en place une double procédure, de pseudonymisation avec recodages pour les jeux de données diffusés uniquement à la communauté de recherche et dont les demandes sont gérées manuellement, puis d’anonymisation formelle pour les jeux de données ouverts (encore très peu nombreux, et essentiellement pédagogiques).

Les outils testés, et rapportés, pour l’anonymisation sont QAMD (QAMyData) et sdcMicro.

2 « J'aime »