L'anonymisation des données est censée protéger les clients contre un usage abusif de leurs données par un tiers. Du moins en théorie, car en pratique, elle s'avère extrêmement compliquée -- voire impossible -- à mettre en place.

L’anonymisation des données est-elle vraiment possible ? Les data brokers — ou courtiers de données — revendent des données fournies par une entreprise à d’autres entreprises spécialisées en publicité, marketing ou analyse. Pour protéger les clients, le data broker anonymise en principe ses données. En conséquence, l’acheteur ne devrait pas pouvoir retrouver l’identité des personnes à qui les données appartiennent. Sauf que parfois, les précautions prises par les courtiers sont insuffisantes.

Yodlee, le plus gros revendeur de données bancaires des États-Unis, serait dans ce cas, d’après Motherboard. Le site américain a mis la main sur un document interne de 2019, et découvert que la méthode de Yodlee pour anonymiser les données n’empêchait pas la réidentification des personnes. Leurs clients pourraient donc assez facilement traquer une personne dans ses comportements d’achat. Et si ces jeux de données étaient interceptés par des malfaiteurs, les conséquences seraient encore plus graves. Ils permettraient par exemple de créer du phishing sur-mesure pour voler les données bancaires.

Cette enquête tombe mal pour Yodlee. Plusieurs sénateurs américains demandaient déjà au régulateur américain, la Federal Trade Commission (FTC), d’enquêter sur son entreprise mère, Envestnet. Ils la soupçonnent de revendre les données de transaction sans le consentement des utilisateurs.

Alors qu’elle opérait sans restriction, Clearview va se confronter à de nombreux problèmes. // Source : Illustration par Lucie Benoit pour Numerama

Si on retrouve le nom de la personne en 2 clics, c’est qu’il n’y pas d’anonymat

Comme d’autres data brokers, une partie de l’activité de Yodlee consiste à revendre les données liées aux transactions financières de dizaines de millions d’Américains. Elles sont achetées par des entreprises d’investissement ou de recherche en finance, afin de mieux comprendre les habitudes d’achat des clients. Cette pratique est légale, même si le rôle des courtiers de données est régulièrement décrié.

En revanche, ce système de revente des données clients doit respecter certaines précautions. Les données doivent être anonymisées avant d’être revendues. Ce processus consiste à supprimer tous les indicateurs qui permettraient de retrouver les noms et prénoms des personnes à partir du jeu de données.

Un nettoyage de données pas si poussé

En principe, les acheteurs des données clients ne peuvent donc pas identifier précisément à qui elles appartiennent. Ce nettoyage rend les données moins intéressantes pour les entreprises de publicité ou de marketing qui les achètent, puisque leur ciblage sera en conséquence moins précis. Mais les données permettent tout de même de faire des analyses et de dégager des comportements plus généraux.

Problème : ce processus d’anonymisation, régulièrement questionné en lui-même, n’offre pas de garantie suffisante dans le cas de Yodlee. « Je vais être direct. Cette pseudo anonymisation est à chier », tranche carrément le chercheur d’UC Berkeley Nicholas Weaver, à qui Motherboard a montré les documents. Pourtant, l’entreprise promeut son service comme le plus complet du marché, grâce « à la force de ses capacités d’acquisition de données, de son nettoyage de données poussé, et de sa capacité à le faire à très grande échelle. »

Des données temporelles et de localisation pour remonter à l’identité du client

Concrètement, plusieurs entreprises financières comme HSBC, Citigroup ou Bank of America envoient leurs données de transactions à Yodlee. Ensuite, Yodlee permet à ses clients de télécharger les données sous la forme d’un fichier texte. Entre temps, il aura effectué un nettoyage — entièrement automatisé –, qui consiste à enlever tous les prénoms, noms et adresses email qui figurent sur les documents. Il masque également les numéros de comptes, de téléphones, et de sécurité sociale, qui sont remplacés par des croix ( sous la forme « XXX »).

Le pseudonymat ne suffit pas

Mais ce n’est pas assez : les données restantes peuvent suffire à réidentifier certains individus. Elles seraient donc « pseudonymisées » et non « anonymisées », une différence d’importance. Certes, les données vendues aux acheteurs finaux ne contiennent pas d’informations sur l’identité des personnes. En revanche, Yodlee ne supprime pas toutes sortes de données spatio-temporelles : date de la transaction, nom du vendeur, localisation de la vente… des données facile à recroiser avec d’autres. Si un des acheteurs dispose de données complémentaires, il pourra donc réidentifier le client de la banque.

En 2015, à la suite d’une précédente enquête du Wall Street Journal, Yodlee avait défendu qu’il faisait le « travail technique et administratif que les régulateurs ont recommandé » pour maintenir l’anonymat des données.

Cette fois, il déclare : « Nous nous conformons aux meilleures pratiques de l’industrie sur les questions de sécurité des données et de respect de la vie privée, et nous employons des systèmes qui suppriment tous les identifiants connus sur les données qui sont collectées.  ». Il ajoute qu’il suit à la lettre le California Consumer Protection Act (équivalent californien du RGPD), qui insiste sur les processus de dé-identification des données.

Il est possible de questionner les pratiques de Yodlee… ou le concept d’anonymisation lui-même.

Partager sur les réseaux sociaux