Les guides de l'entrepôt
Recommandations sur les jeux de données volumineux
Introduction
Ce document propose des bonnes pratiques concernant les jeux de données volumineux déposés dans l’entrepôt Recherche Data Gouv.
Les valeurs données ci-dessous sont indicatives : ce sont des recommandations basées sur l’expérience et non des limitations techniques de l’outil.
En cas de besoin particulier non évoqué dans ce document, n’hésitez pas à contacter le centre de ressources de la plateforme à l’adresse suivante : support-recherchedatagouv@inrae.fr
Généralités sur le téléversement de fichiers
Il y a 3 moyens de téléverser des fichiers dans l’entrepôt :
- L’interface de dépôt : elle est recommandée pour les dépôts de jeu de données de moins de 50 Go ou moins de 200 fichiers. A noter que la taille limite d’un fichier est de 50 Go.
- L’application DVUploader : elle est recommandée pour les dépôts de jeu de données de plus de 200 fichiers ou de plus de 50 Go. DVUploader permet par ailleurs de reproduire l’arborescence des fichiers lorsque le dépôt comporte plusieurs répertoires ou fichiers.
- L’API s3-direct-upload : réservé aux utilisateurs à l’aise avec les API. Il est en revanche déconseillé d’utiliser toute autre API pour le dépôt de fichier.
Points d’attention
Attribution des DOI
Il faut avoir à l’esprit que chaque fichier déposé se verra attribuer un DOI.
Il revient au déposant d’organiser de la façon la plus cohérente possible ses fichiers dans son jeu de données : il n’est pas toujours indispensable de pouvoir citer individuellement un fichier, il convient donc de regarder quels éléments du jeu de données ont besoin de cette fonctionnalité.
Jeu de données avec plusieurs fichiers
Pour conserver l’arborescence des fichiers sans utiliser DVUploader, il est possible d’organiser tout ou partie des fichiers dans des dossiers compressés (.zip, .xz, .7z, .bzip, .gz).
Seul le format zip permet la prévisualisation de l’arborescence et le téléchargement fichier par fichier.
Nous recommandons de garder hors du dossier compressé zip les fichiers :
- qui nécessitent un DOI (citation) ;
- qui valorisent le jeu de données par l’accessibilité (Readme, fichiers de métadonnées, images illustratives...) ;
- pour lesquels la prévisualisation et/ou l’ingestion est souhaitable.
Jeu de données avec des fichiers volumineux (dès 100 Go par jeu de données)
Comme mentionné dans la partie « Généralités sur le téléversement de fichiers », nous recommandons dans le cas d’un dépôt de plus de 50 Go par jeu de données d’utiliser DVUploader.
Nous recommandons également :
- De ne pas découper un fichier volumineux pour contourner la limite de 50 Go, mais plutôt d’utiliser l’application DVUploader pour réaliser le téléversement.
- D’utiliser un format de compression ouvert ou propre à la discipline.
Pour des jeux de données de l’ordre du téraoctet (To), merci de contacter au préalable le Centre de ressources Plateforme (support-recherchedatagouv@inrae.fr).
À l’échelle d’un espace institutionnel, il convient de respecter la limite fixée par la convention (actuellement 5 To / espace). Sinon, ou par anticipation, merci de contacter le Centre de ressources Plateforme (support-recherchedatagouv@inrae.fr).