Les guides de l'entrepôt
Déposer un jeu de données
Créer un jeu de données
Se placer dans la collection identifiée (voir Identifier son espace de dépôt dans le guide Avant de déposer).
- Cliquer sur Ajouter des données > Nouveau jeu de données
La collection peut proposer un ou plusieurs modèle(s) dans lesquels certaines métadonnées, y compris les conditions d’utilisation, comme la licence, ont été pré-saisies. Si un modèle convient, il faut le choisir au moment de la création du jeu de données car on ne peut pas appliquer un modèle a posteriori ni en changer.
Si la collection ne propose pas de modèle, il est possible d'en faire la demande à l'administrateur de la collection via le bouton Contact .
Renseigner un premier lot de métadonnées
Renseigner les métadonnées obligatoires (marquées d’un astérisque rouge), ainsi que les métadonnées recommandées disponibles à la création du jeu de données (il sera nécessaire de modifier le jeu de données après la sauvegarde pour compléter les métadonnées).
Voir le Guide de saisie des métadonnées.
Renseigner les métadonnées recommandées contribue aux principes : |
Ajouter les fichiers associés au jeu de données
Dans l’entrepôt Recherche Data Gouv, un ou plusieurs fichiers peuvent être associés à un jeu de données.
Un fichier a également son propre DOI, qui est relié au DOI du jeu de données. Si les fichiers sont déposés dans un autre entrepôt, le lien vers ceux-ci sera précisé dans une métadonnée dédiée : « Lien vers les données ».
Tous les types de fichiers sont acceptés (tabulaire, texte, pdf, image, vidéo, audio, SHP, etc.). Cependant, dans un contexte d’ouverture et de réutilisation des données, il est fortement recommandé de choisir un format ouvert ou largement utilisé, et facilement exploitable par les machines.
L’utilisation de formats ouverts contribue à l’application du principe d’Interopérabilité en permettant aux fichiers d’être lus et modifiés par tout logiciel destiné à traiter ce type de fichier (image, texte, audio, etc.). |
Voir : La ressource DoRANum Format ouvert ou fermés ?
Note : l’ajout de fichiers est toujours possible après la sauvegarde du jeu de données ou après sa publication.
Cliquer sur Sélectionner les fichiers à ajouter ou glisser-déposer le(s) fichier(s).
Tous les formats de fichiers sont acceptés.
Renseigner les métadonnées spécifiques du fichier :
- Nom du fichier : pré-rempli, il peut être modifié
- Chemin d’accès au fichier si nécessaire
- Description
- Libellés. Par défaut 3 libellés sont proposés : Data, Documentation et Code. Il est aussi possible de personnaliser le libellé des fichiers.
- Provenance
Le type de média (type MIME) du fichier est reconnu même si le fichier n’a pas d’extension. En fonction de ce type, le logiciel Dataverse proposera ou non une prévisualisation du fichier.
La taille maximale pour chaque fichier téléchargé est de 50 Go.
Le nombre de fichiers qu’il est possible de téléverser via l’interface utilisateur est limité à 1000 fichiers par téléversement. Au-delà, il faudra utiliser une API Dataverse ou l’outil DVUploader.
Au moment du versement des fichiers, ils se voient attribuer :
- une empreinte numérique permettant la vérification de l’intégrité des données (non corruption du fichier) : UNF pour les fichiers tabulés, MD5 pour les autres formats ;
- un DOI.
Cas des fichiers de données tabulées
Le logiciel Dataverse intègre les fichiers xlsx (Excel), csv, tsv, R data, SPSS et Stata sous la forme d’un fichier tabulé .tab (format ouvert). Le format original reste toujours disponible pour le téléchargement. Ce traitement spécifique permet d’extraire des métadonnées supplémentaires sur les variables des fichiers, de rechercher sur les noms des variables ainsi que de proposer des fonctionnalités de prévisualisation et d’exploration. Le .tab est également un format ouvert compatible avec la préservation à long terme.
Note : Seuls les fichiers de données en tableau inférieurs à 500 Mo sont transformés en .tab.
Pendant le téléversement, le fichier est analysé par le logiciel Dataverse. Le message “Chargement en cours” est affiché :
Une fois le téléversement terminé, l'indication “Opération réussie ! – Les fichiers tabulaires ont été inclus" est affichée et un message est envoyé au déposant.
Le nombre de variables et le nombre d’observations sont affichés dans les métadonnées du fichier :
Il est conseillé au déposant de vérifier que ces informations sont correctes !
Si le fichier n’a pas pu être analysé par le logiciel Dataverse, l’erreur est signalée mais le fichier est tout de même importé dans son format original.
Un mail est alors envoyé par le logiciel Dataverse au déposant. Le type d’erreur n’est pas précisé.
Recommandations pour une bonne ingestion des données tabulées
- Recommandations générales
- encodage en UTF-8 des fichiers contenant des caractères spéciaux,
- pas d’en-tête vide ni de cellule manquante (voir tableau ci-dessous. Les cellules vides, elles, sont acceptées),
- chaque en-tête de colonne doit avoir un nom différent,
- si votre fichier contient plus de 1024 colonnes il sera bien déposé mais ne pourra pas être ingéré,
- pas de retour à la ligne dans une cellule.
- Si le fichier est au format Microsoft Excel
- chaque fichier Excel ne doit contenir qu’un seul onglet/feuille, avec les variables sur la première ligne (en-têtes de colonne) et une observation par ligne.
Attention ! s’il y a plusieurs onglets, seul le premier est ingéré par le logiciel Dataverse et sera pris en compte dans l’affichage, l’exploration et l’export au format tabulé, - pas de cellule fusionnée,
- pas de légende,
- pour aider à identifier les erreurs dans un fichier Excel, une solution est d’ouvrir le fichier xlsx avec LibreOffice Calc et de l’enregistrer en .csv encodage UTF-8.
- chaque fichier Excel ne doit contenir qu’un seul onglet/feuille, avec les variables sur la première ligne (en-têtes de colonne) et une observation par ligne.
- Si le fichier est au format csv
- utiliser la virgule comme séparateur (le point-virgule n’est pas accepté par le logiciel Dataverse),
- le séparateur décimal doit être le point (sinon les virgules seront comprises comme des séparateurs),
- dans les cellules de texte contenant des virgules, le texte doit être entre guillemets (sinon ces virgules seront comprises comme des séparateurs).
exemple de fichier csv avec erreur : |
exemple de fichier csv sans erreur : |
exemple de fichier Excel avec erreur : |
exemple de fichier Excel sans erreur : |
Voir aussi : Broman, K. W., & Woo, K. H. (2018). Data Organization in Spreadsheets. The American Statistician, 72(1), 2‑10. doi : 10.1080/00031305.2017.1375989
Voir : Tabular Data File Ingest pour en savoir plus sur le traitement des données tabulées par le logiciel Dataverse.
Sauvegarder le jeu de données
Cliquer sur Sauvegarder le jeu de données.
Le jeu de données a alors le statut de version provisoire non publiée.
Un DOI est réservé, il sera actif au moment de la publication du jeu de données.
Préciser les conditions d’utilisation du jeu de données
Les conditions d’utilisation du jeu de données permettent de spécifier :
- la licence attribuée au jeu de données,
- les conditions d’accès aux fichiers réservés,
- l’application d’un registre des visiteurs.
Ces conditions s’appliquent à l’ensemble des fichiers du jeu de données.
Les conditions d’utilisation sont disponibles depuis la page d’affichage du jeu de données via le menu Modifier > Conditions d’utilisation.
ou via l’onglet Conditions > Modifier les conditions
Les licences
Par défaut, la licence attribuée à un jeu de données est la licence ouverte etalab2.0. Pour attribuer une ou plusieurs autres licences aux données, aller dans l’onglet Conditions :
- cocher « conditions personnalisées du jeu de données »
- saisir la licence choisie dans la métadonnée Conditions d’utilisation.
Par exemple, voici le code correspondant à la licence CC BY 4.0 :
<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a><br />Ce(tte) œuvre est mise à disposition selon les termes de la <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licence Creative Commons Attribution 4.0 International</a> - il est possible de préciser les fichiers de données auxquels elles s’appliquent
Voir : Liste des licences utilisables pour être en conformité avec la Loi pour une République numérique (plus d’informations dans le guide d’application de la loi pour une république numérique pour les données de la recherche du Comité pour la Science Ouverte).
Note : dans le cas d’un logiciel, il est préconisé d’accompagner le logiciel d’un fichier de licence.
Les conditions d’utilisation et en particulier la licence peuvent avoir été pré-saisies dans un modèle proposé par la collection dans laquelle le jeu de données est créé. En cas de doute, s’adresser à la personne contact ou à l’administrateur de la collection.
Si le jeu de données réutilise des données existantes, s’assurer de la compatibilité des licences (ex. condition « SA » dans une licence type CC-BY-SA).
L’attribution d’une licence au jeu de données permet de respecter le principe Réutilisable en explicitant les conditions de réutilisation des données. |
Les fichiers en accès réservé et leurs conditions d'accès
Précise les conditions d’accès aux fichiers en accès restreint.
Voir : Restreindre l’accès à un fichier de données.
Le registre des visiteurs
Le registre des visiteurs permet de recueillir des informations de l’utilisateur qui affiche, explore ou télécharge un fichier du jeu de données auquel le registre est appliqué. Associer un registre des visiteurs à un jeu de données relève de la responsabilité du déposant. Par contre, c’est l’administrateur de la collection qui peut créer un registre des visiteurs et voir les données récoltées dans le registre.
Une collection peut ne pas proposer de registre des visiteurs.
Pour appliquer un registre des visiteurs à un jeu de données :
via l’onglet Conditions > Modifier les conditions > Registre des visiteurs
ou via la commande Modifier le dataset > Conditions d’utilisation > Registre des visiteurs
Note : les données des registres des visiteurs sont supprimées au bout d’un an.
Gérer les droits associés aux jeux de données et aux fichiers
Tant que le jeu de données n’est pas publié, seules les personnes autorisées peuvent y accéder. Ce sont, par défaut : le déposant ainsi que l’administrateur et le(s) curateur(s) de la collection parente. Des autorisations supplémentaires peuvent être accordées au niveau d’un jeu de données pour assigner des rôles à des utilisateurs ou à des groupes.
Droits associés aux jeux de données et aux fichiers
Rôles Autorisations associées au rôle |
Administrateur | Curateur | Contributor (collaborateur) |
Membre | Téléchargeur de fichiers |
Télécharger un fichier | + | + | + | + | + |
Consulter la version provisoire d’un jeu de données | + | + | + | + | |
Éditer un jeu de données | + | + | + | ||
Supprimer la version provisoire d’un jeu de données | + | + | + | ||
Publier un jeu de données | + | + | |||
Gérer les autorisations pour un jeu de données | + | + |
Assigner un rôle sur un jeu de données
Comme le montre le tableau ci-dessus, la gestion des autorisations pour un jeu de données n’est possible que pour les curateurs et les administrateurs du jeu de données. Selon le paramétrage en cours dans la collection dans laquelle le jeu de données est créé, le créateur du jeu de données pourra avoir un rôle de curateur ou de collaborateur. Il ne pourra donc assigner un rôle à un utilisateur ou à un groupe que s’il est curateur de son jeu de données.
Modifier > Autorisations > Dataset
Restreindre l’accès à un fichier de données
L’accès à un fichier de données peut être restreint par le déposant (ou toute personne autorisée à modifier le jeu de données correspondant).
Modifier le fichier > Restreindre
Indiquer les conditions d’accès et cocher (ou non) la possibilité de demander l’accès au fichier par mail.
Les conditions d’accès peuvent également être précisées via la commande Modifier le dataset > Conditions d’utilisation.
Note : les conditions d'accès concernent tous les fichiers d'un jeu de données.
- Si le déposant ne coche pas "Demander l’accès", seuls les utilisateurs autorisés pourront télécharger le fichier. Les autres utilisateurs ne pourront pas demander l'accès au fichier.
- Si le déposant coche "Demander l’accès", l’accès au fichier peut être demandé :
Le demandeur doit alors s’authentifier pour faire la demande.
Le déposant, s’il est curateur du jeu de données, reçoit un mail de demande d’accès (objet : “Recherche Data Gouv : Vous avez présenté une demande d'accès à un fichier en accès réservé”) contenant un lien vers la gestion des accès au fichier, et est notifié de cette demande (avec un lien vers la gestion des accès au fichier).
S’il est collaborateur, c’est l’administrateur ou le curateur de la collection qui reçoit et traite la demande d’accès.
La demande d'accès peut être validée ou rejetée en cliquant sur le lien reçu dans le mail et dans la notification, ou en allant directement dans le menu du jeu de données :
Modalités d'accès au dataset > Autorisations > Fichier
Si la demande est validée, le demandeur reçoit un mail et une notification dans son espace personnel et peut télécharger le fichier.
Appliquer un embargo sur un fichier de données
Il est possible d’appliquer un embargo sur un fichier de données si une période « propriétaire » sur les données est recommandée ou conforme aux bonnes pratiques d’une communauté. La durée de l’embargo maximale prévue dans l’entrepôt Recherche Data Gouv est de 18 mois. Elle ne peut plus être modifiée ou supprimée une fois le jeu de données publié. L’embargo sera levé automatiquement à échéance de la date prévue. Une fois l’embargo expiré, les fichiers deviennent accessibles. Si des restrictions ont été appliquées, elles s’appliquent comme pour des fichiers qui n’ont pas été soumis à un embargo.
Donner accès à un jeu de données non publié (URL privée)
Le déposant, s’il est curateur du jeu de données, peut générer une URL privée pour donner accès à un jeu de données non encore publié à une personne n’ayant pas de compte dans Recherche Data Gouv.
S’il n’a pas accès à cette fonctionnalité, il peut demander au curateur ou à l’administrateur de la collection hôte de la lui générer.
Cette fonctionnalité est utile, par exemple, pour donner accès aux relecteurs d’un article en cours de soumission qui demandent à voir les données associées à l’article, sans avoir à envoyer ou à rendre publiques ces données.
Note : Une URL privée est temporaire et est désactivée au moment de la publication du jeu de données. L’URL privée ne doit donc pas être renseignée dans l’article. Si une URL privée est transmise aux relecteurs d’un article en cours de soumission, il est préférable d’attendre la fin du processus de revue par les pairs avant de publier, afin que les relecteurs n’aient pas de soucis d’accès au jeu de données.
Modifier le jeu de données > URL privée
Donner accès à un jeu de données non publié pour une revue en aveugle
Dans le cas où les jeux de données doivent être revus en aveugle par des pairs, il est possible de créer une URL pour un accès anonyme comme le montre la figure ci-dessous. En procédant de cette façon, une liste pré-établie de métadonnées seront anonymisées (auteur, contact du jeu de données, contributeur, producteur, publications associées, jeux de données associés, identifiant de la subvention, informations sur le projet).
Cependant, la liste de métadonnées anonymisées étant pré-définie et non personnalisable, il est recommandé de suivre la procédure explicitée dans la section Cas des jeux de données revus en aveugle par des pairs.
Compléter les métadonnées
A la création du jeu de données, seul un nombre limité de métadonnées est visible et peut donc être renseigné. Pour compléter et enrichir la description du jeu de données, il faut le modifier après la première sauvegarde.
La modification des métadonnées se fait à partir de la page d’affichage du jeu de données via le menu Modifier le dataset > Métadonnées
ou via l’onglet Métadonnées > Ajouter + Modifier des métadonnées.
Cas des jeux de données revus en aveugle par des pairs
Dans le cas où les jeux de données doivent être revus anonymement par des pairs, ils font l’objet d’une procédure de dépôt spéciale. Ils ne sont pas déposés dans un premier temps dans la collection cible afin de ne pas diffuser d’informations permettant une identification de l’auteur.
Une collection fictive (non publiée) a été créée à cet effet. Voici la procédure à suivre pour ces jeux de données :
- L’auteur envoie un courriel au Centre de ressources Entrepôt Catalogue pour demander la création d’un jeu de données dont les métadonnées identifiantes sont anonymisées
- Informations à transmettre :
- Titre du jeu de données
- Nom de la collection cible
- Le Centre de ressources Entrepôt Catalogue crée le jeu de données en appliquant un modèle de données et donne le rôle de collaborateur pour ce jeu de données à l’auteur.
- L’auteur complète les métadonnées, ajoute les fichiers.
- L’auteur envoie le jeu de données pour révision. Une URL pour accès anonyme lui est envoyée pour la communication aux pairs.
- Une fois la publication acceptée, le déposant contacte le Centre de ressources Entrepôt Catalogue qui se charge du déplacement dans la collection cible.
- L’auteur met à jour les valeurs anonymisées et complète si besoin les métadonnées dans la collection cible.