Les guides de l'entrepôt
Déposer un jeu de données
Créer un jeu de données
Se placer dans la collection identifiée (voir Identifier son espace de dépôt dans le guide Avant de déposer).
- Cliquer sur Ajouter des données > Nouveau jeu de données

La collection peut proposer un ou plusieurs modèle(s) dans lesquels certaines métadonnées, y compris les conditions d’utilisation, comme la licence, ont été pré-saisies. Si un modèle convient, il faut le choisir au moment de la création du jeu de données car on ne peut pas appliquer un modèle a posteriori ni en changer.

Si la collection ne propose pas de modèle, il est possible d'en faire la demande à l'administrateur de la collection via le bouton Contact .
Renseigner un premier lot de métadonnées
Renseigner les métadonnées obligatoires (marquées d’un astérisque rouge), ainsi que les métadonnées recommandées disponibles à la création du jeu de données (il sera nécessaire de modifier le jeu de données après la sauvegarde pour compléter les métadonnées).
Voir le Guide de saisie des métadonnées.
Renseigner les métadonnées recommandées contribue aux principes : |
Ajouter les fichiers associés au jeu de données
Dans l’entrepôt Recherche Data Gouv, un ou plusieurs fichiers peuvent être associés à un jeu de données.
Un fichier a également son propre DOI, qui est relié au DOI du jeu de données. Si les fichiers sont déposés dans un autre entrepôt, le lien vers ceux-ci sera précisé dans une métadonnée dédiée : « Lien vers les données ».
Tous les types de fichiers sont acceptés (tabulaire, texte, pdf, image, vidéo, audio, SHP, etc.). Cependant, dans un contexte d’ouverture et de réutilisation des données, il est fortement recommandé de choisir un format ouvert ou largement utilisé, et facilement exploitable par les machines.
L’utilisation de formats ouverts contribue à l’application du principe d’Interopérabilité en permettant aux fichiers d’être lus et modifiés par tout logiciel destiné à traiter ce type de fichier (image, texte, audio, etc.). |
Voir : La ressource DoRANum Format ouvert ou fermés ?
Note : l’ajout de fichiers est toujours possible après la sauvegarde du jeu de données ou après sa publication.
Cliquer sur Sélectionner les fichiers à ajouter ou glisser-déposer le(s) fichier(s).
Tous les formats de fichiers sont acceptés.
Renseigner les métadonnées spécifiques du fichier :
- Nom du fichier : pré-rempli, il peut être modifié
- Chemin d’accès au fichier si nécessaire
- Description
- Libellés. Par défaut 3 libellés sont proposés : Data, Documentation et Code. Il est aussi possible de personnaliser le libellé des fichiers.
- Provenance
Le type de média (type MIME) du fichier est reconnu même si le fichier n’a pas d’extension. En fonction de ce type, le logiciel Dataverse proposera ou non une prévisualisation du fichier.
La taille maximale pour chaque fichier téléchargé est de 50 Go.
Le nombre de fichiers qu’il est recommandé de téléverser via l’interface utilisateur est de 200 fichiers maximum par téléversement. Au-delà, il faudra utiliser l’outil DVUploader ou l'API Dataverse Direct Upload.
Au moment du versement des fichiers, ils se voient attribuer :
- une empreinte numérique permettant la vérification de l’intégrité des données (non corruption du fichier) : UNF pour les fichiers tabulés, MD5 pour les autres formats ;
- un DOI.
Pour plus d'informations concernant le nombre de fichiers à déposer et leur taille, se référer à la page "Recommandations sur les jeux de donnees volumineux"
Cas des fichiers de données tabulées
Le logiciel Dataverse intègre les fichiers xlsx (Excel), csv, tsv, R data, SPSS et Stata sous la forme d’un fichier tabulé .tab (format ouvert). Le format original reste toujours disponible pour le téléchargement. Ce traitement spécifique permet d’extraire des métadonnées supplémentaires sur les variables des fichiers, de rechercher sur les noms des variables ainsi que de proposer des fonctionnalités de prévisualisation et d’exploration. Le .tab est également un format ouvert compatible avec la préservation à long terme.
Note : Seuls les fichiers de données en tableau inférieurs à 500 Mo sont transformés en .tab.
Pendant le téléversement, le fichier est analysé par le logiciel Dataverse. Le message “Chargement en cours” est affiché :
Une fois le téléversement terminé, l'indication “Opération réussie ! – Les fichiers tabulaires ont été inclus" est affichée et un message est envoyé au déposant.
Le nombre de variables et le nombre d’observations sont affichés dans les métadonnées du fichier :

Il est conseillé au déposant de vérifier que ces informations sont correctes !
Si le fichier n’a pas pu être analysé par le logiciel Dataverse, l’erreur est signalée mais le fichier est tout de même importé dans son format original.

Un mail est alors envoyé par le logiciel Dataverse au déposant. Le type d’erreur n’est pas précisé.
Recommandations pour une bonne ingestion des données tabulées
- Recommandations générales
- encodage en UTF-8 des fichiers contenant des caractères spéciaux,
- pas d’en-tête vide ni de cellule manquante (voir tableau ci-dessous. Les cellules vides, elles, sont acceptées),
- chaque en-tête de colonne doit avoir un nom différent,
- si votre fichier contient plus de 1024 colonnes il sera bien déposé mais ne pourra pas être ingéré,
- pas de retour à la ligne dans une cellule.
- Si le fichier est au format Microsoft Excel
- chaque fichier Excel ne doit contenir qu’un seul onglet/feuille, avec les variables sur la première ligne (en-têtes de colonne) et une observation par ligne.
Attention ! s’il y a plusieurs onglets, seul le premier est ingéré par le logiciel Dataverse et sera pris en compte dans l’affichage, l’exploration et l’export au format tabulé, - pas de cellule fusionnée,
- pas de légende,
- pour aider à identifier les erreurs dans un fichier Excel, une solution est d’ouvrir le fichier xlsx avec LibreOffice Calc et de l’enregistrer en .csv encodage UTF-8. Voir procédure pour l'ingestion de fichiers CSV
- chaque fichier Excel ne doit contenir qu’un seul onglet/feuille, avec les variables sur la première ligne (en-têtes de colonne) et une observation par ligne.
- Si le fichier est au format csv
- utiliser la virgule comme séparateur (le point-virgule n’est pas accepté par le logiciel Dataverse),
- le séparateur décimal doit être le point (sinon les virgules seront comprises comme des séparateurs),
- dans les cellules de texte contenant des virgules, le texte doit être entre guillemets (sinon ces virgules seront comprises comme des séparateurs).
|
exemple de fichier csv avec erreur : |
exemple de fichier csv sans erreur : |
|
exemple de fichier Excel avec erreur : |
exemple de fichier Excel sans erreur : |
Voir aussi : Broman, K. W., & Woo, K. H. (2018). Data Organization in Spreadsheets. The American Statistician, 72(1), 2‑10. doi : 10.1080/00031305.2017.1375989
Voir : Tabular Data File Ingest pour en savoir plus sur le traitement des données tabulées par le logiciel Dataverse.
NB : La fiche Ingestion de fichiers CSV détaille les étapes pour convertir à l'encodage UTF8 et définir la virgule comme séparateur de valeur d'un CSV en utilisant le logiciel LibreOffice CALC.
Sauvegarder le jeu de données
Cliquer sur Sauvegarder le jeu de données.
Le jeu de données a alors le statut de version provisoire non publiée.
Un DOI est réservé, il sera actif au moment de la publication du jeu de données.
Compléter les métadonnées
A la création du jeu de données, seul un nombre limité de métadonnées est visible et peut donc être renseigné. Pour compléter et enrichir la description du jeu de données, il faut le modifier après la première sauvegarde.
La modification des métadonnées se fait à partir de la page d’affichage du jeu de données via le menu Modifier le dataset > Métadonnées
L’utilisation de formats ouverts contribue à l’application du principe d’Interopérabilité en permettant aux fichiers d’être lus et modifiés par tout logiciel destiné à traiter ce type de fichier (image, texte, audio, etc.).
