L’archivage, nouveau point d’attention pour les données de la recherche
L’écosystème Recherche Data Gouv est au service du partage et de l’ouverture des données de la recherche, avec notamment la mise en place de l’entrepôt du même nom. Toutefois, Recherche Data Gouv, comme d’autres entrepôts, n’a pas vocation à assurer un archivage pérenne des jeux de données qu’il contient (l’hébergement sécurisé y est garanti pour une durée d’environ 5 ans, renouvelable).
Pour autant, certaines données scientifiques présentent un intérêt sur le très long terme et méritent d’être préservées dans une démarche quasi patrimoniale. Comme en témoigne le récent colloque R.I.P Data, les interrogations se multiplient dans les communautés de recherche : quels critères peuvent-être appliqués pour sélectionner les données à archiver ? Sur quelles infrastructures... ?
Dans ce contexte, un nouveau groupe de travail dédié à l’archivage des données scientifiques est né au sein du réseau des ateliers de la donnée : le GT 7
Lui-même régulièrement confronté aux questionnements des chercheuses et chercheurs sur le sujet, le réseau des ateliers de la donnée a décidé d’y consacrer un groupe de travail, en s’appuyant notamment sur les profils complémentaires de bibliothécaires, de documentalistes et d’archivistes présents dans ses équipes. Les compétences des archivistes sont particulièrement précieuses pour aborder les questions liées à la réglementation et à la gestion des archives en France.
La mission première du GT 7 sera d’identifier les problématiques auxquels chercheurs et personnels d’appui sont confrontés, et ce dès la rédaction des plans de gestion de données. Le GT 7 s’attachera également à faire du lien avec les autres groupes de travail concernés par l’archivage au-delà de l'écosystème Recherche Data Gouv, que ce soit au niveau du Collège Données de la recherche du Comité pour la Science ouverte, de CollEx-Persée et son programme dédié aux archives scientifiques, ou encore du GT "Archives scientifiques" de la section Aurore de l'Association des Archivistes Français (AAF).
Les travaux du GT 7 ont démarré en vue de ces deux livrables :
- une fiche pratique sur les critères de sélection pour le tri des données à conserver à long terme, en partenariat avec DoRANum,
- un état des lieux des problématiques concrètes rencontrées sur le terrain, lequel sera remonté au Comité pour la Science ouverte.
Clarifions la notion d'archivage pour les données de recherche
Auteurs: Christine Hadrossek (DDOR CNRS), Laure Bézard et Romain Boissat (Maison de l'Orient et de la Méditerranée), Océane Valencia (Sorbonne Université), et Marie-Laure Bachèlerie (DSI CNRS)
Dans le cadre de la gestion des données de recherche, la notion d’archivage est souvent mal comprise, car elle est souvent confondue avec des concepts voisins tels que le stockage, le partage ou la publication des données. Pourtant, l’archivage a une définition et des finalités bien spécifiques et il s’agit d’un processus distinct, essentiel pour garantir à la fois la conservation et la conformité réglementaire des données.
Ce que l’archivage n’est pas
- L’archivage n’est pas du stockage : le stockage consiste à enregistrer une information sur un support physique (clé USB, disque dur, bande magnétique, ou équivalent) pour y accéder de façon individuelle. Il vise un usage immédiat ou à court terme tandis que l’archivage garantit la pérennité et l’intelligibilité des données.
- L’archivage n’est ni du partage ni de la publication des données : lorsque des données sont déposées dans un entrepôt comme Recherche Data Gouv leur objectif est de les rendre accessibles pour la communauté scientifique, en favorisant leur réutilisation ou leur valorisation. L’archivage, lui, s’inscrit dans une démarche patrimoniale et réglementaire.
Alors, qu’est-ce que l’archivage ?
L’archivage des données de recherche peut être défini comme l’ensemble des pratiques visant à préserver des données dans le temps, en garantissant leur intégrité, leur authenticité et leur intelligibilité, pour des besoins de preuve, de mémoire ou d’intérêt public.
En France, le Code du patrimoine (article L211-1) rappelle que l’archivage est une obligation légale pour l’ensemble des documents, y compris les données issues de la recherche publique. Les données archivées à long terme doivent être versées dans un service public d’archives sous le contrôle scientifique et technique de l’administration des archives.
« La définition juridique des archives est beaucoup plus large que l’acception commune qui consiste à considérer les « archives » comme des documents anciens. Elle recouvre tous types de documents et de données, quel que soit leur forme et leur support. Ainsi, sont des archives, dès leur création, une infinité de types de données de recherche (carnets ou photos de terrains, enregistrements d’entretiens, bases de données, algorithmes…). Leur gestion se fait donc en concertation avec l’ensemble des acteurs tout au long du cycle de vie de la donnée afin par exemple, d’assurer leur accessibilité ou de bien conserver celles qui ne peuvent pas être ouvertes immédiatement. L’archivage est un ensemble des méthodes, processus et outils mis en œuvre pour gérer la conservation et l'utilisation des documents et informations à court, moyen et long termes. À ce titre, les services d’archives d’établissement proposent aux chercheurs en complément des circuits de publications en accès ouvert (RDG, HAL, Zenodo, Nakala…), des solutions de conservation et de communication des données de recherche qui permettent d’assurer la conformité avec les différentes réglementations (Code du patrimoine, RGPD, intégrité scientifique…) pour constituer le patrimoine scientifique de demain. »
Des finalités complémentaires mais distinctes
Lorsque vous déposez vos données dans l’entrepôt Recherche Data Gouv, votre objectif est de faciliter leur réutilisation et de participer à une dynamique d’ouverture des sciences. Ce n’est cependant pas de l’archivage, car ce dépôt est révocable. L’archivage n’est en revanche effectif que quand vous garantissez avec un service d’archives la conservation et l’accessibilité de vos données sur le long terme. Il s’inscrit donc dans une démarche différente : il s’agit d’assurer une conservation, souvent au-delà de la durée de vie des outils informatiques actuels, afin de préserver un patrimoine scientifique et culturel.
Pourquoi cette distinction est-elle importante ?
Bien comprendre cette différence permet de mieux planifier la gestion des données tout au long de leur cycle de vie :
- Pour un usage immédiat ou à moyen terme : privilégiez le dépôt dans des entrepôts thématiques de confiance ou à défaut dans l’entrepôt Recherche Data Gouv.
- Pour une conservation à long terme, l’archivage dans un but d’histoire de la recherche passe par un versement de vos données dans un service d’archives (constitution du patrimoine scientifique de demain).
L’archivage et le dépôt dans un entrepôt de données ne s’opposent pas, mais ils répondent à des objectifs distincts et complémentaires. En les articulant judicieusement, vous garantissez la valorisation et la pérennité de vos données de recherche.