Informations sur les noms de domaines. Une analyse de la cohérence entre WHOIS et RDAP
Les données publiques d’enregistrement de noms de domaines, comme le Registrar, la date d’expiration ou l’adresse de contact en cas d’abus sont cruciales pour de nombreuses tâches, des campagnes de notification à la détection automatique de botnets ou de phishing. Ces informations sont habituellement collectées avec les protocoles WHOIS et RDAP, qui, à priori, fournissent les mêmes informations mais en utilisant des formats et des protocoles différents. WHOIS essaye de fournir des données « lisibles par l’humain », et RDAP propose un format plus simple à lire pour une machine (JSON). Le choix entre WHOIS et RDAP se fait donc souvent sur la base de critères techniques, en fonction du niveau d’automatisation et de sécurité nécessaire.
Cependant, les données WHOIS et RDAP sont réparties entre plusieurs serveurs par un mécanisme de délégation, et sont parfois gérées par des entités différentes. De plus, aucun protocole n’assure que les valeurs des différents champs sont identiques entre les différents serveurs.
Pour verifier que les données fournies par les différents protocoles et serveurs sont bien cohérentes (ou pour mesurer leurs incohérences) nous avons collecté, parsé et comparé 164 millions d’entrées WHOIS et RDAP appartenant à 55 millions de domaines. Nous avons aussi collecté 360k entrées DNS pour trancher dans certains cas et analyser quelle entrée contient la bonne valeur. Ce jeu de données contient les entrées parsées dans un format permettant une détection rapide des incohérences et les entrées DNS.