Parler n’est plus en ligne depuis le dimanche 10 janvier, après que son hébergeur, Amazon Web Service, a décidé de rompre le contrat qui les liaient. Mais le contenu du réseau social de la droite dure américaine, lui, est encore trouvable en ligne. Et pour cause, une utilisatrice de Twitter, @donk_enby, a archivé 56,7 téraoctets de contenus publiés sur la plateforme.

D’après Vice, ce gigantesque jeu de données contient 412 millions de fichiers, dont 150 millions de photos et plus de 1 million de vidéos. Soit l’équivalent de 96 à 99% de toutes les publications du réseau social de la droite dure, d’après différentes sources.

Image d'erreur

Le contenu archivé devrait permettre de mieux enquêter sur l’assaut contre le Capitole américain. // Source : CCO/ MotionStudios de Pixabay

Pour réussir ce travail de sauvegarde titanesque, la hackeuse a pu compter sur le soutien nécessaire de l’Archive Team, un groupe de hackers et de chercheurs dont l’objectif est de sauvegarder (bénévolement) les données des sites mourants. Elle avait commencé son travail de collecte 6 janvier, mais a dû considérablement accélérer la cadence et entamer un véritable contre-la-montre lorsque Amazon a annoncé son intention de débrancher Parler.

Elle en a fait part publiquement : c’est alors que l’Archive Team lui a offert son aide. Le collectif a pris à sa charge le coût du stockage, et même créé un outil pour n’importe quel utilisateur de Twitter puisse mettre sa bande passante au service du téléchargement, souligne Vice. Quelques heures après le déploiement de l’outil, il permettait une vitesse de téléchargement de 50 Go par seconde.

Les métadonnées des fichiers publics, une mine d’or

Cette base de données ne comporte que des contenus publics, qui étaient accessibles à tout utilisateur de la plateforme. Les mots de passe, discussions privées et autres informations confidentielles des utilisateurs n’ont pas été compromis ou du moins, pas par ce biais. En revanche, chaque photo et vidéo s’accompagne de métadonnées, puisque Parler ne les retirait pas des fichiers, contrairement aux principaux réseaux sociaux. Concrètement, quand vous prenez une photo avec votre smartphone, votre appareil attache des données contextuelles au fichier de l’image : par exemple l’heure et la date à laquelle la photo a été prise, ainsi que votre géolocalisation à ce moment.

Autrement dit, en analysant les métadonnées des photos et vidéos publiés sur Parler, n’importe qui peut tracer des itinéraires des utilisateurs de la plateforme ou identifier leurs attroupements. Le tout, heure par heure. C’est donc une mine d’or pour les chercheurs, enquêteurs et journalistes qui s’intéressent à l’assaut des supporters de Trump sur le Capitole : le média américain Gizmodo en a déjà fait la démonstration dans un article. Il faut dire que de nombreux utilisateurs de Parler impliqués dans l’attaque ont filmé et photographié les événements en direct. Une pratique peu précautionneuse qui a permis d’identifier bon nombre des protagonistes de l’assaut.

Sans protection basique, Parler était facile à copier

Pour copier le contenu de Parler, Vice souligne @donk_enby n’a utilisé « que » un iPad qui a été « jailbreaké » (sur lequel certaines sécurités mises en place par Apple ont été retirées), et un logiciel de rétro-ingénierie nommé Ghidra. Un matériel peu cher, et facile à se procurer.

La hackeuse a profité d’un bug « absurdement basique » dans l’architecture de Parler, comme le qualifie Wired. La gestion des URL (autrement dit, des adresses) des publications par le réseau social était catastrophique, et permettait de « scrapper » facilement l’intégralité de son contenu.

Prenons l’URL d’un message Twitter : il se construit sous la forme : twitter.com/Nom d’utilisateur/type de message/une longue suite de chiffre aléatoire. Sur Parler, l’URL ne contenait que la composante chiffrée. Pire, la suite de chiffre n’était pas aléatoire, mais séquentielle. Concrètement, si une publication de Karen envoyée à 21h21 contenait le nombre 23134 dans son URL, la photo de Chad envoyé 10 secondes plus tard avait le nombre 23135 dans son URL. Les URL des publications se suivaient donc par ordre chronologique.

Parler ne détectait pas les scripts automatisés

À partir de ce constat, automatiser la collecte de l’intégralité des données s’avérait facile avec les bonnes compétences. Un simple script codé en Python permettait de télécharger chaque publication l’une après l’autre en augmentant juste de 1 le nombre contenu dans l’URL. À cause du défaut d’architecture, le robot n’avait aucun risque de tomber sur un URL inexistant ou de rater un URL existant.

C’est ici la deuxième large faiblesse de Parler.

Aujourd’hui, la très large majorité des sites de son genre disposent de système de détection des scripts. Ces défenses peuvent limiter le nombre de connexions si elles détectent une activité suspecte., comme la visite de millions de pages en à peine quelques heures depuis un même appareil. Mais bien sûr, Parler n’avait pas déployé de protection de ce genre, pourtant basiques et faciles d’accès, et n’a donc pas limité la copie de l’intégralité de son contenu. Une aubaine pour les enquêteurs, privés comme publics, qui sauront se servir de cette base de données.


Vous voulez tout savoir sur la mobilité de demain, des voitures électriques aux VAE ? Abonnez-vous dès maintenant à notre newsletter Watt Else !