Foire Aux Questions

Accès aux données

  • Oui, l'URL privée permet d’accéder aux fichiers d’un jeu de données non encore publié (statut draft), même si ces fichiers sont en accès restreint.

  • Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans l'entrepôt-catalogue Recherche Data Gouv.

    Note : Dans le cas où l’autre entrepôt attribue un DOI, il ne faut pas créer de jeu de données dans l'entrepôt-catalogue Recherche Data Gouv.

  • On peut restreindre l’accès à un fichier d’un jeu de données. L’entrepôt Recherche Data Gouv ne gère pas automatiquement la durée de cette restriction d’accès (embargo), il revient au déposant du jeu de données d’enlever la restriction le moment venu. 

    Pour limiter l’accès à un jeu de données dans son ensemble, il ne doit pas avoir été publié. L’accès à ce jeu de données ne sera alors possible qu’aux personnes autorisées ou via son URL privée.

    On ne peut pas limiter l’accès à une collection publiée.

  • La métadonnée "Link to data" indique le lien direct vers les données. Un lien vers une base de données ne permettra pas de retrouver précisément les données décrites par le jeu de données. La base de données dont le jeu de données est extrait peut être mentionnée dans la métadonnée "Data sources".

  • Oui, les données sont indexées par Google Dataset Search.

  • L’accessibilité des jeux de données ne change pas. Il est en revanche nécessaire de maintenir une personne contact (qui peut être l’administrateur de la collection parente) et éventuellement d’attribuer des droits pour modifier le jeu de données ou donner accès à des fichiers restreints.

Administration des collections

  • Oui, on peut rendre obligatoire une métadonnée qui était facultative. Il n’y a pas d’impact sur les jeux de données déjà publiés tant qu’ils ne sont pas modifiés. Lors d’une modification, la métadonnée obligatoire devra alors être renseignée.

  • Non, il n'y a pas de recommandation particulière de la part de la plateforme Recherche Data Gouv. Quelques contraintes techniques sont indiquées dans le paramétrage de la collection (menu Thème + Widget).

    Il est néanmoins possible de se référer à la documentation spécifique de l'espace institutionnel concerné pour voir si des recommandations particulières sont précisées.

  • Il n’est pas possible pour le moment d’enregistrer une alerte automatique dans l'entrepôt Recherche Data Gouv

    Par contre, il est possible de repérer, dans une collection, les jeux de données créés à une date précise et encore non publiés.

    Par exemple : écrire la requête dateOfDeposit:[* TO 2020] puis sélectionner via les facettes les jeux de données « non publiés » (il est nécessaire de se connecter pour utiliser cette facette).

  • La plupart des fonctionnalités de collection est disponible via les API Dataverse, y compris l’attribution de rôles pour mettre en place un processus de curation. L’API permettra d’envoyer un jeu de données en révision, il ne sera publié que si la commande de publication est exécutée. Un jeu de données créé par l’API peut également être modifié via l’interface utilisateur.

Choisir un entrepôt

  • Pour qu’un jeu de données soit publié sur l’entrepôt Recherche Data Gouv, il doit respecter ces  critères :

    • Les données sont produites dans un contexte de recherche ;

    • Les données sont structurées et déposées de préférence dans un format exploitable par les machines.

  • Seules les données de la recherche produites par des équipes de recherche dont au moins un des collaborateurs est affilié à un établissement membre de la communauté de la recherche publique française sont acceptées de droit dans l’entrepôt Recherche Data Gouv.

  • Oui, Il est fortement recommandé de déposer vos données de recherche dans un entrepôt de référence pour votre communauté thématique. Si ce n’est pas possible, les données peuvent être déposées dans un entrepôt de votre établissement ou dans l’entrepôt Recherche Data Gouv.

  • Oui, toutes les données d’un projet peuvent être déposées dans l'entrepôt Recherche Data Gouv. Le dépôt doit être fait dans la collection dédiée au projet dans l’espace institutionnel d’un des partenaires, s’il existe. Dans le cas contraire le dépôt sera fait dans l’espace générique.

    Si des jeux de données ont déjà été déposés ailleurs, renseigner la métadonnée « Related datasets » pour indiquer le lien vers ces jeux de données.

    Penser à indiquer chaque producteur dans la métadonnée « Producer ».

Collections

  • Un administrateur de collection ne peut pas le faire, seuls les administrateurs fonctionnels de l’entrepôt Recherche Data Gouv le peuvent. Il est donc nécessaire de bien réfléchir au positionnement d’une collection avant sa création.

    Il est possible de lier une collection à une autre pour la faire apparaître comme une sous-collection, mais le contenu de celle-ci ne sera pas visible dans la collection cible.

    Pour déplacer ou lier une collection contacter le Centre de ressources entrepôt-catalogue : support-recherchedatagouv@inrae.fr.

  • Une collection n’est rattachée qu’à une seule collection parente, celle dans laquelle elle a été créée. Il est possible de lier une collection à une autre pour qu’elle apparaisse comme une sous-collection. Pour lier une collection contacter le Centre de ressources entrepôt-catalogue : support-recherchedatagouv@inrae.fr.

  • Oui, mais seul le Centre de ressources entrepôt-catalogue Recherche Data Gouv peut déplacer un jeu de données d’une collection vers une autre. Il est préférable de faire un lien plutôt qu’un déplacement.

  • Il n’y a pas de taille maximale pour une collection, hormis la volumétrie de l’espace institutionnel qui la contient. Voir « Quelle est la volumétrie d’un espace institutionnel ?  ».

Conditions générales

  • L’hébergement sécurisé et la mise à disposition des données sont garantis par le représentant de l’entrepôt Recherche Data Gouv pendant un minimum de 5 ans renouvelables après la publication du jeu de données.

    La pérennité du lien entre DOI et page descriptive du jeu de données dans l’entrepôt Recherche Data Gouv est garantie, conformément aux exigences de DataCite, l’agence d’enregistrement des DOI.

  • Oui, toutes les données d’un projet peuvent être déposées dans l'entrepôt Recherche Data Gouv. Le dépôt doit être fait dans la collection dédiée au projet dans l’espace institutionnel d’un des partenaires, s’il existe. Dans le cas contraire le dépôt sera fait dans l’espace générique.

    Si des jeux de données ont déjà été déposés ailleurs, renseigner la métadonnée « Related datasets » pour indiquer le lien vers ces jeux de données.

    Penser à indiquer chaque producteur dans la métadonnée « Producer ».

  • L'hébergement sécurisé et la mise à disposition des données sont garantis pendant un minimum de 5 ans renouvelables après la publication. Cette durée constitue un plancher, il ne s'agit pas de la durée maximum de conservation des données qui peut varier selon les jeux de données.

Curation

  • Non, aucune action n’est possible sur le jeu de données par le déposant tant que le jeu de données est en cours de révision.

  • La plupart des fonctionnalités de collection est disponible via les API Dataverse, y compris l’attribution de rôles pour mettre en place un processus de curation. L’API permettra d’envoyer un jeu de données en révision, il ne sera publié que si la commande de publication est exécutée. Un jeu de données créé par l’API peut également être modifié via l’interface utilisateur.

Data papers

  • Oui, l'URL privée permet d’accéder aux fichiers d’un jeu de données non encore publié (statut draft), même si ces fichiers sont en accès restreint.

  • Les deux ordres sont possibles et relèvent de la stratégie scientifique, sous la responsabilité des auteurs. S’il existe une inquiétude sur l’exploitation des données, il est possible de rédiger en premier le data paper mais de le publier une fois l’article scientifique publié. En cas de doute, contacter l’éditeur.

  • Non, la génération d’un data paper via la fonctionnalité dédiée n’est possible qu’à partir du DOI d’un jeu de données.

Documentation des données

  • Le plan de gestion des données (PGD), dans sa version finale, peut être déposé dans l’entrepôt Recherche Data Gouv, dans la même collection que les données qu’il présente. Il recevra ainsi un DOI. Des liens entre les jeux de données et ce PGD doivent être faits dans les deux directions via la métadonnée Related Dataset. S’il n’y a qu’un jeu de données, le PGD sera un des fichiers associé au jeu de données.

DOI

  • Non, le DOI reste le même en cas de changement de version. Voir le guide du déposant :

    https://recherche.data.gouv.fr/fr/categorie/9/guide/modifier-un-jeu-de-donnees-publie-et-gerer-ses-versions

  • Non, il n’est pas recommandé de créer un nouveau jeu de données dans l’entrepôt Recherche Data Gouv car un nouveau DOI lui serait attribué. Voir le guide du déposant : https://recherche.data.gouv.fr/fr/categorie/9/guide/avant-de-deposer

  • Le DOI d’un jeu de données est généré et réservé dès sa création. Il est  activé au moment de la publication.

    Pour rappel, les données déposées dans l’entrepôt Recherche Data Gouv doivent être publiées dans un délai de 12 mois.

  • Le bac-à-sable publie les jeux de données uniquement sur l’environnement de test de DataCite, qui est un système fermé : lui seul permet de retrouver directement la ressource correspondant au DOI. Le DOI ne mène alors à aucune page d’affichage du jeu de données (landing page).

  • Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au jeu de données, il est possible de l’indiquer dans la métadonnée Contributor en précisant le "Type" et en choisissant "DOI" dans "Contributor Identifier Scheme". Le DOI lui-même est renseigné dans "Contributor Identifier".

  • Oui, le DOI est basé sur le système d’identifiant Handle et certifié ISO (ISO 26324, Digital Object Identifier System). L’unicité est assurée par le fait que les suffixes sont uniques pour un préfixe donné.

Environnements de bac-à-sable et de production

  • En créant un compte dans l’environnement bac-à-sable, vous disposez par défaut des droits de créateur de jeu de données et de collection dans la collection Travaux pratiques.

  • Oui, il existe une instance bac-à-sable https://demo.recherche.data.gouv.fr/.

    La collection « Travaux pratiques » permet à tout utilisateur authentifié de créer des jeux de données ou des collections.

  • Non, ces deux environnements sont indépendants et il n’y a pas de possibilité d’exporter un jeu de données de l’un pour l’importer dans l’autre.

  • Le bac-à-sable publie les jeux de données uniquement sur l’environnement de test de DataCite, qui est un système fermé : lui seul permet de retrouver directement la ressource correspondant au DOI. Le DOI ne mène alors à aucune page d’affichage du jeu de données (landing page).

Espace générique

  • Oui il est possible de déposer des données dans l’Espace Générique sans attendre la création d’un espace institutionnel. A savoir que si l’un des collaborateurs dispose d’un espace institutionnel, le jeu de données doit être déposé dans cet espace.

  • Non, le dépôt d‘un jeu de données dans l’Espace générique est possible uniquement dans les cas où ni le déposant ni l’un de ses collaborateurs ne disposent d’un espace institutionnel.

Espaces institutionnels

  • Les informations pour demander la création d’un espace institutionnel sont disponibles sur la page « Rejoindre l'écosystème ».

  • A sa création, un espace institutionnel dispose de 5 To.

  • Par défaut, la volumétrie d’un espace institutionnel est de 5To.

Fichiers

  • L’interface de dépôt de l'entrepôt-catalogue Recherche Data Gouv limite le téléversement à 1000 fichiers en une fois. Au-delà il est possible d’utiliser l’outil DVUploader ou l’API native, qui respecteront l'arborescence des fichiers.

  • Une modification de fichier crée un nouveau brouillon du jeu de données. Une nouvelle publication de celui-ci rend publique les modifications et met à jour la version.

  • Les fichiers sont exportables dans leur format original. Pour les données tabulaires, l’export est également possible au format Rdata et au format tabulé.

  • La taille maximale d’un fichier est de 50 Go.

  • Consulter le guide pour identifier la cause de l’erreur (https://recherche.data.gouv.fr/fr/categorie/9/guide/deposer-un-jeu-de-donnees#Cas+des+fichiers+de+donn%C3%A9es+tabul%C3%A9es),puis remplacer le fichier par le fichier corrigé.

  • Oui, tous les formats de fichiers sont acceptés. Si pour votre jeu de données l’arborescence est importante, nous vous recommandons fortement d’utiliser DVUploader : https://recherche.data.gouv.fr/fr/categorie/33/guide/dv-uploader pour déposer l’ensemble des fichier et l’arborescence plutôt qu’une archive.

  • Il n’est pas possible de modifier le contenu d’un fichier dans l’interface utilisateur. Pour mettre à jour un fichier, il faut le remplacer. Notez que cela implique un changement de version. Pour que le nouveau fichier puisse être consulté, le jeu de données doit être republié.

  • Ce n’est pas possible depuis l’interface. Il faut utiliser l’API native - Accessing (downloading) files - en indiquant le DOI du fichier avec la commande
    https://entrepot.recherche.data.gouv.fr/api/datafile/:persistentId/?persistentId=doi:{DOI du fichier}

  • Un fichier ne doit être déposé que dans un seul jeu de données. Par contre, il est possible de faire référence à un fichier déposé dans un autre jeu de données via la métadonnée “Related Datasets”

  • Des recommandations pour nommer et organiser ses fichiers de données sont disponibles sur le site Doranum (https://doranum.fr/tags/nommage-fichier/). D’autre part, des recommandations spécifiques peuvent être proposées par l’administrateur d’une collection et intégrées dans le plan de gestion des données associé à celle-ci.

  • Il est possible d’utiliser des outils d’anonymisation, comme Amnesia (https://amnesia.openaire.eu/) qui permet de renvoyer directement les données anonymisées dans l'entrepôt-catalogue Recherche Data Gouv.

  • Non, si le fichier contient plusieurs feuilles, il peut être déposé dans l’entrepôt Recherche Data Gouv mais seule la 1ère feuille est ingérée et donc transformée en .tab. 

    Pour pouvoir réaliser une bonne ingestion, il est donc conseillé de ne téléverser que des fichiers contenant un seul onglet avec les variables sur la première ligne (entêtes de colonne) et une observation par ligne (voir Cas des fichiers de données tabulées).

  • Non, il n’est pas possible de trier les fichiers par nombre de téléchargements. On peut trier les fichiers d’un jeu de données par nom, date de dépôt, taille et catégorie (type de fichier).

Gestion des accès et des droits des utilisateurs

  • Les droits d’un utilisateur (ou d’un groupe d’utilisateurs) sont liés aux rôles qui lui ont été attribués dans une collection, sur un jeu de données ou sur un fichier. Ils peuvent être modifiés.

    - Pour les jeux de données et fichiers, voir Gérer les droits associés aux jeux de données et aux fichiers.

    - Pour une collection, voir :Attribuer des rôles aux utilisateurs et aux groupes.

  • Ce n’est pas obligatoire. Par défaut, seul le créateur d’une collection dispose de droits dans une nouvelle collection. Ces droits sont également modifiables via l’option “Modifier > Autorisations”.

  • Oui, toute personne ayant un compte dans l’entrepôt Recherche Data Gouv peut se voir attribuer un rôle qui lui donnera des droits sur un fichier, un jeu de données ou une collection.

    Se reporter au chapitre “Autorisations” du guide de l’administrateur.

  • Ce n’est pas obligatoire. Seuls les agents qui ont à contribuer à l’alimentation de la collection (dépôt, validation des dépôts, administration de sous-collections) doivent avoir un rôle.

    Pour attribuer le même rôle à plusieurs agents, il est possible de créer un groupe d’utilisateurs à qui on attribuera le rôle. Pour être dans un groupe, il faut que l’agent ait déjà un compte dans l’entrepôt Recherche Data Gouv.

    Pour importer un grand nombre d’utilisateurs dans un groupe, envoyer au centre de ressources entrepôt-catalogue Recherche Data Gouv un fichier texte contenant la liste des courriels des personnes concernées, en indiquant la collection et le groupe dans lequel faire l’import.

  • Oui, il est possible de créer un groupe incluant les membres du projet, puis d’accorder un même rôle au groupe ainsi créé (https://recherche.data.gouv.fr/fr/categorie/27/guide/modifier-les-parametres-dune-collection#Groupes).

Gestion des comptes

  • Au niveau du profil de l’utilisateur, en haut à droite de l’écran lorsqu’on est authentifié, cliquer sur “Mes données”. Dans les facettes, ne sélectionner que “Dataverses” et le rôle “Administrateur”.

  • La connexion avec le compte institutionnel lié à l'établissement ne sera plus possible. Dans ce cas, il est nécessaire de créer un nouveau compte, soit un compte institutionnel associé à un nouvel établissement, soit un compte ORCID, soit un compte externe. Ensuite, prendre contact avec le Centre de ressources entrepôt-catalogue (support-recherchedatagouv@inrae.fr) pour demander la fusion de ces deux comptes avec conservation des droits sur les jeux de données préalablement créés.

  • Il n’y a pas de validation des inscriptions pour les personnes qui se créent un compte externe. Ce compte externe n’ouvre aucun droit par défaut.

  • Oui, il est possible d’associer un alias mail à un compte utilisateur.

Jeu de données

  • Non, un jeu de données est toujours créé dans une collection. Cette collection peut être l’espace générique, ou une collection contenue dans l’un des espaces institutionnels.

  • Il est recommandé de publier un jeu de données dès que possible, la vocation de l’entrepôt Recherche Data Gouv étant d’être un entrepôt d’accès aux données. 

    Dans le cas de données non liées à une publication, il est souhaitable de ne pas dépasser un délai d’une année. Au-delà de ce délai un administrateur de la collection de rattachement pourra prendre contact avec le déposant pour l'alerter.

  • Oui, tant qu’il n’a pas été publié, un jeu de données peut être supprimé. Seules les versions au statut brouillon peuvent être supprimées.

  • L’accessibilité d’un jeu de données ne dépend pas de la présence de fichiers. Par contre si tous les fichiers d’un jeu de données sont supprimés, il est nécessaire d'indiquer le lien vers les données dans la métadonnée « Link to data ».

  • Il n’y a pas de taille limite pour un jeu de données.

    Voir « Quelle est la volumétrie d’un espace institutionnel ? » et  « Quelle est la taille maximale d’un fichier ? ».

Métadonnées

  • La plupart des métadonnées proviennent de Dataverse (voir Metadata References) et sont conformes aux standards Documentation Initiative (DDI), Dublin Core, DataCite et ISA-Tab. D’autres métadonnées ont été créées pour les besoins spécifiques d’un établissement, comme celles du bloc dédié aux ressources sémantiques (Semantic resource) développé par INRAE.

    Les valeurs de certaines métadonnées peuvent provenir de référentiels externes ou propres à l’entrepôt Recherche Data Gouv.

  • Data Documentation Initiative (DDI) est un standard créé par DDI Alliance permettant de documenter des données d’enquête et d’observation en sciences sociales, comportementales, économiques et de la santé.

  • Non, le choix de la langue dépend du public visé par la publication. Il est possible de créer plusieurs métadonnées « Description » en spécifiant la langue de chacune.

  • Lorsqu’une Infrastructure Scientifique Collective (ISC) a contribué au jeu de données, il est possible de l’indiquer dans la métadonnée Contributor en précisant le "Type" et en choisissant "DOI" dans "Contributor Identifier Scheme". Le DOI lui-même est renseigné dans "Contributor Identifier".

  • Oui, le DOI est basé sur le système d’identifiant Handle et certifié ISO (ISO 26324, Digital Object Identifier System). L’unicité est assurée par le fait que les suffixes sont uniques pour un préfixe donné.

  • L’auteur est le responsable du jeu de données. Il est présent dans la citation du jeu de données. Associée au DOI, la métadonnée authorName est obligatoire dans l’entrepôt Recherche Data Gouv

    Un contributeur est une personne ou un organisme ayant participé à la collecte, la gestion, la distribution ou toute autre contribution au jeu de données. Dans l’entrepôt, il n’apparaît pas dans la citation du jeu de données.

  • Il s’agit ici des informations liées à la revue dans laquelle les données sont publiées.

  • Il est tout à fait possible de compléter les métadonnées d’un jeu de données après sa publication. Une nouvelle version (mineure ou majeure) est alors créée, qui doit être publiée à son tour.

  • Non, cette fonctionnalité n’existe pas depuis l’interface utilisateur. Il est par contre possible d’utiliser les APIs pour réaliser cette action. Pour plus d’informations, contacter le Centre de ressources de l’entrepôt Recherche Data Gouv.

  • Il n’est pas possible pour un utilisateur d’ajouter des métadonnées dans le formulaire. Il est en revanche possible de déposer, avec le fichier de données, un fichier annexe contenant les métadonnées spécifiques.

    Pour suggérer l’ajout de métadonnées au formulaire de saisie, contactez le centre de ressources de l’entrepôt Recherche Data Gouv.

  • Oui, si les métadonnées apportent des informations complémentaires à celles saisies dans l'entrepôt-catalogue Recherche Data Gouv.

    Note : Dans le cas où l’autre entrepôt attribue un DOI, il ne faut pas créer de jeu de données dans l'entrepôt-catalogue Recherche Data Gouv.

  • L’identifiant ORCID est préconisé dans le deuxième Plan national pour la science ouverte pour identifier les auteurs et les contributeurs.

    Vous pouvez néanmoins utiliser d’autres identifiants dans l’entrepôt Recherche Data Gouv, sachant toutefois qu’il n’est possible d’indiquer qu’un seul identifiant par auteur ou contributeur.

Modèles de jeux de données

  • Les modèles de jeu de données sont créés dans une collection par l’administrateur et s’appliquent aux jeux de données créés dans cette collection.

  • Collection : Oui, il est possible de proposer plusieurs modèles dans une collection, et notamment ceux de la collection parente (par exemple le modèle INRAE).

    Jeu de données : Non, il n’est pas possible de choisir plusieurs modèles pour un jeu de données, ni de changer de modèle une fois le jeu de données créé.

  • Non, un modèle ne s’applique qu’aux nouveaux jeux de données créés à partir de ce modèle.

  • Le modèle de jeu de données Recherche Data Gouv ne pré-remplit que les informations liées au diffuseur et à la licence Ouverte/Etalab. Afin de faciliter la complétion d’un maximum de champs de métadonnées lors des dépôts, par exemple dans le cadre d’une collection de projet ou thématique, il est fortement recommandé aux administrateurs de collections de créer de nouveaux modèles plus complets.

    Pour créer un modèle de jeu de données, consulter la page : 

    https://recherche.data.gouv.fr/fr/categorie/27/guide/modifier-les-parametres-dune-collection#Cr%C3%A9er+des+mod%C3%A8les+de+jeux+de+donn%C3%A9es

Moissonnage

  • Non, le moissonnage de Zenodo n’est pas supporté par la version actuelle du logiciel Dataverse.

Type de contenu

  • Le plan de gestion des données (PGD), dans sa version finale, peut être déposé dans l’entrepôt Recherche Data Gouv, dans la même collection que les données qu’il présente. Il recevra ainsi un DOI. Des liens entre les jeux de données et ce PGD doivent être faits dans les deux directions via la métadonnée Related Dataset. S’il n’y a qu’un jeu de données, le PGD sera un des fichiers associé au jeu de données.