Une brève histoire du temps humain

Une brève histoire du temps humain
Mis à jour : 11/04/2023
Production d’une base de données à vérification croisée de 2,2 millions d'individus uniques.

Les Vies Parallèles de Plutarque ont été écrites au début du IIe siècle de notre ère. Ses 23 biographies ont survécu pendant deux mille ans. Depuis cette époque, la vie des personnages célèbres et leur influence ont été régulièrement étudiées et enregistrées. Ces dernières années, cette tâche a été entreprise à une échelle beaucoup plus grande, avec un nombre croissant de bases de données documentant l’histoire, permettant une analyse statistique des faits socio-historiques, à une échelle jamais atteinte jusqu'à présent.

Notre article le plus récent fait état d’une base de données à vérification croisée de 2,2 millions d'individus significatifs à l'aide de plusieurs éditions de Wikipédia et de Wikidata.

Notre approche complète les approches existantes de plusieurs façons. Tout d'abord, nous collectons une quantité massive de données, ce qui rend nécessaire plusieurs vérifications croisées. Le processus s'appuie sur de multiples sources (différentes éditions de Wikipédia et Wikidata) et des techniques de déduplication. Le croisement de données issues de Wikipédia et Wikidata apporte 2,72% de nouvelles dates de naissance, 8,16% de nouvelles professions et 17,16% de nouvelles nationalités. Nous constatons qu'il y a très peu d'erreurs dans la partie de la base de données qui contient les individus les plus documentés. Nous trouvons également des taux d'erreur signifiants (environ 1%) dans la partie inférieure de la distribution de notabilité, en raison d'informations rares et d'erreurs de classification ou d'ambiguïtés. Cela nécessite soit des corrections manuelles pour une réutilisation future, soit un traitement statistique de ces erreurs. Le croisement de données issues de Wikipedia et Wikidata corrige environ 0,5% des erreurs. Il faut donc trouver un compromis entre la taille de la base de données et la précision des données.

Deuxièmement, nous adoptons une approche issue des sciences sociales : la collecte de données est guidée par des questions sociales spécifiques sur le genre, le développement économique et culturel et l'exploration quantitative des tendances culturelles que nous documentons dans l’article. Cette approche est notamment utilisée pour documenter le biais anglo-saxon naturellement présent dans les projets existants basés sur la version anglaise de Wikipédia.

Cette stratégie a donné lieu à la production d’une base de données à vérification croisée de 2,2 millions d'individus uniques. Nous ne recommandons pas d'aller au-delà : nous avons constaté des erreurs dans la base de données étendue à 4,7 millions de personnes. Nous prenons en compte également une grande partie des individus nouvellement ajoutés dans les versions non anglaises de Wikipédia qui ont effectivement joué un rôle important dans des périodes importantes de l'histoire humaine. Il existe plus de 700 000 de ces individus, soit près d'un tiers de la base de données que nous avons vérifiée.

LAOUENAN, Morgane; BHARGAVA, Palaash; EYMEOUD, Jean-Benoît; GERGAUD, Olivier; PLIQUE, Guillaume; WASMER, Etienne, 2022, "A Brief History of Human Time - Codes & Datasets", https://doi.org/10.21410/7E4/YLG6YR, data.sciencespo, V2