Plus de 100 millions de lignes de données, qui contiennent près de 23 millions d’adresses email. En février, HaveIBeenPwned, le site de référence des fuites de données, a récupéré un immense jeu de données, confié par un autre site, spécialisé dans la recherche de fuite.

Troy Hunt, l’unique et célèbre administrateur de HaveIBeenPwned, a alors commencé à analyser la base de données pour déterminer son origine. Mais après trois mois de recherche, l’expert a jeté l’éponge. « Franchement, je n’ai absolument aucune idée d’où vient la fuite, et c’est pareil pour toutes les personnes avec qui j’ai travaillé sur cette base », concède-t-il dans un billet de blog. Ne sachant à qui l’attribuer, il a nommé la base « db8151dd », du nom d’un identifiant présent sur plusieurs entrées de la base.

Image d'erreur

Troy Hunt a posté sur PasteBin une partie des données de la fuite pour que des personnes extérieures l’aident à identifier son origine. // Source : Pastebin

Les 22 802 117 emails de la base ont donc été ajoutés à HaveIBeenPwned, qui connaissait déjà 65% d’entre elles, ce qui signifie que ces emails étaient déjà divulgués dans d’autres fuites. Si vous entrez votre adresse email sur le site, vous pourrez savoir si elle fait partie de « db8151dd » ou d’une des centaines de fuites recensées par le site. Spoiler : il y a de grandes chances que votre adresse se trouve parmi les plus de 9 milliards d’emails listés…

« db8151dd » aurait fuité d’un logiciel de gestion client

Troy Hunt a tout de même quelques pistes sur l’origine de « db8151dd ». Il sait qu’elle provient d’un serveur ElasticSearch ouvert, qui était accessible depuis un navigateur à qui disposait de l’adresse. Les fuites de ce type sont très courantes, car les ElasticSearch sont difficiles à sécuriser si l’entreprise n’a pas les ressources et les compétences suffisantes.

Lorsqu’un hacker veut attaquer un site, il commence par scanner les ports de connexion du site.  Il détectera dès cette première étape s’il existe des serveurs ElasticSearch ouverts, et si les données sont stockées sans protections. Il n’a ensuite plus qu’à les télécharger et le tour est joué. Il n’aura même pas eu besoin de lancer une attaque à proprement parler pour mettre la main sur la mine d’information.

Après avoir regardé de plus près les entrées de la base de données, Troy Hunt les soupçonne de provenir d’un CRM, un de ces outils de gestions de relation client. Les divisions commerciales des entreprises se servent par exemple de ce genre d’outil pour lancer en masse de premiers contacts avec leurs prospects. Dans la base se trouvait notamment le détail d’actions de la part des personnes contactées, qui peuvent servir dans le cadre d’une relance.

Les données du créateur de HaveIBeenPwned font partie de la fuite

L’administrateur de HaveIBeenPwned note aussi que la plupart des données ont été aspirées depuis des sources publiques, « à quelques différences clés près ». Ironiquement, le numéro de téléphone et l’adresse email de Troy Hunt se trouvent dans la base de données, alors qu’il met un soin particulier à protéger ce genre d’informations. Pire ses données étaient juxtaposées avec celles d’une de ses connaissances.

Le chercheur a donc ponctué son billet d’une conclusion un poil défaitiste :  « Vous, tout comme moi, ne pouvez rien faire contre ce genre de fuite d’informations, à part être plus que jamais conscient de la portée à laquelle nos informations personnelles se diffusent sans notre consentement, et surtout, sans qu’on ne le sache. »

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !