Dans le cadre de la semaine internationale du libre accès, la journée d’études organisée à Lyon le 25 octobre a eu pour thème Pour une science ouverte et éthique. Le programme est disponible ici et les enregistrements vidéo des conférences du matin.  L’après-midi, un des ateliers, animé par Marilou Pain (CCSD), était consacré à la diffusion des données de recherche.

Voici la suite du billet précédent, qui vous propose une série d’outils de recherche et d’évaluation d’entrepôts de données de recherche.

Les répertoires d’entrepôts

Plusieurs outils peuvent vous permettre d’identifier quel entrepôt de données correspondra à vos besoins. Les répertoires d’entrepôts sont alors des alliés précieux. Voici trois exemples :

  • OAD : Data repositories : il s’agit d’un wiki mis en place par l’Ecole de Sciences de l’Information et des Bibliothèques du Simmons College à Boston. Il répertorie une centaine d’entrepôts classés par domaine disciplinaire.
  • NIH Data Sharing Repositories : cette liste du National Institute of Health (Etats-Unis) conseille soixante-quatre entrepôts en sciences biomédicales. Chaque entrée est accompagnée à la fois d’une description de l’entrepôt et de liens vers leur politique d’acceptation de jeux de données ainsi que d’accès aux jeux de données hébergés.
  • Re3data.org : né en 2012 grâce à la German Research Foundation (DFG) qui en est le financeur principal et géré par DataCite, ce répertoire peut être alimenté à tout instant. Il est possible d’y chercher des entrepôts par domaine disciplinaire, par type de contenu, par pays ou encore par accessibilité des données.

Partir à la recherche d’un entrepôt de donnée peut également se faire à partir du site d’une revue ou d’un éditeur. Ces derniers mettent de plus en plus souvent en place des recommandations à destination des déposants. Certains rendent même ce dépôt des données de recherche attenantes à l’article obligatoire à l’image de PLoS ou de Earth and Planetary Science Letters.

On peut par ailleurs noter que cette seconde revue appartient à Elsevier, qui mène actuellement une politique franche à propos des données de recherche, notamment à travers le développement d’outils tels que le Elsevier : Database Linking Tool.

Ainsi, en consultant les sections informatives dédiées aux déposants des revues, vous pourrez parfois avoir quelques conseils pour la gestion de vos données. Les revues en Sciences Humaines et Sociales semblent néanmoins peu enclines à développer des recommandations claires.

D’autres ressources peuvent être utiles aux chercheurs, documentalistes ou bibliothécaires souhaitant travailler à la diffusion de données de recherche. Par exemple, le Metadata Directory, mis en place par la Research Data Alliance (RDA) propose un répertoire de standards de métadonnées pour les données de recherche par discipline. En consultant ce répertoire, on peut aisément se rendre compte des variations disciplinaires existant dans la description des jeux de données de recherche.

Les critères d’évaluation

Des ressources dédiées existent afin d’évaluer des entrepôts à la manière d’un audit, comme DRAMBORA qui est conseillé par le Digital Curation Centre (DCC). Lors de cet atelier, nous avons évoqué un ensemble de neuf critères, qui peuvent vous aider à cerner un entrepôt de données ou une archive ouverte comme lieu de dépôt potentiel.

criteres_entrepots_donnees

Critères d’évaluation d’un entrepôt de données

1. Les formats de fichier  : les entrepôts de données généralistes acceptent un grand nombre de formats de fichier, notamment parce qu’ils ne savent pas à l’avance ce qu’ils vont pouvoir rencontrer, face à des publics disciplinaires variés. S’intéresser aux formats de fichiers acceptés peut ainsi vous permettre de déterminer si l’entrepôt pourra accueillir les fichiers avec lesquels vous travaillez quotidiennement. Cela peut également constituer une occasion de vous informer sur les formats de fichier utilisés, car certains entrepôts cherchent à orienter les déposants vers des formats libres et/ou pérennes.

2. La documentation des données : selon que l’entrepôt soit institutionnel, généraliste ou disciplinaire, la description des données et jeux de données lors de leur dépôt ne sera pas la même. Primordiales, ces informations descriptives sur vos données permettront de faciliter leur recherche et leur compréhension à la fois par l’humain et la machine. Un équilibrage est ainsi à trouver entre la granularité descriptive que vous souhaitez pour vos données et la rapidité du dépôt. Afin de décrire vos données le plus finement possible, il peut être préférable de vous orienter vers un entrepôt disciplinaire, qui aura développé une expertise sur des domaines particuliers.

3. Les licences disponibles : certains entrepôts proposent des licences maisons, c’est le cas par exemple de CSIRO avec une licence proche d’une licence CC-BY-NC. D’autres font le choix d’utiliser une licence seulement, comme c’est le cas pour Dryad et la licence CC0. Enfin, certains, comme Figshare et Zenodo, laissent à leurs utilisateurs un choix assez large. De nombreux entrepôts permettent d’ailleurs de mettre les jeux de données sous embargo. Cette possibilité de mettre vos données sous telle ou telle licence peut être un facteur de choix lors de l’étude d’un entrepôt. Néanmoins, on peut regretter que les entrepôts ne décrivent pas plus en détail l’impact de ces licences.

4. Le coût de publication : certains organismes de financement, de même que certaines revues, prennent aujourd’hui en charge les frais de publication éventuels des données de la recherche. Cependant, les appels à projets concernés sont sans doute une part minime de la recherche. Il peut s’agir d’une des entraves principales à la diffusion des données, notamment si vous travaillez sur des volumes importants. En effet, nombreux sont les entrepôts à demander des frais de publication lorsque les jeux de données dépassent un certains poids.

5. La modération des dépôts : encore une fois, il y a ici un équilibrage à faire lors du choix de votre entrepôt. Les opérations de modérations effectuées par les équipes des entrepôts peuvent ralentir la procédure de dépôt. Néanmoins, cette forme de contrôle qualité consiste en une vérification des métadonnées et de la non corruption des jeux de données. C’est ainsi ce qui permettra à l’entrepôt de proposer une base de données propre, avec un contenu décrit de façon pertinente et accessible.

6. L’archivage des données : l’archivage des données est ce qui permet leur disponibilité à la fois présente et future. Il s’agit de défis à la fois techniques et financiers, pour lesquels même les entrepôts les plus vigilants ne garantissent pas une disponibilité et une intelligibilité des données supérieures à quelques dizaines d’années. Il semble néanmoins primordial de choisir un entrepôt menant des opérations de sauvegarde et d’archivage, ce qui va de pair avec le choix d’un format de fichier pérenne.

7. Architecture et accessibilité : plusieurs points sont identifiables dans ce critère, qui peut se résumer en la capacité d’un entrepôt à rendre accessible les données, tant par la facilité des opérations nécessaires au dépôt que par sa capacité à rendre l’information trouvable. Ainsi, on peut regarder à la fois si l’entrepôt est en accès libre, si une identification est nécessaire afin d’accéder aux données ou encore la facilité d’utilisation de son interface pour tous les publics. De même, lors du dépôt des données, il peut être pertinent de consulter le moteur de recherche de l’entrepôt afin d’identifier sa qualité. Cela revient à se poser deux questions :

  • Est-ce que mes données pourront être retrouvées par ce moteur de recherche interne ?
  • Est-ce que cet entrepôt est correctement indexé, rendant mes données trouvables par un moteur de recherche généraliste ?

8. La citation des données : lors de l’atelier, on nous a demandé si des standards existaient pour citer les données de recherche. Le DataCite, dans la documentation de son standard de métadonnées pour les données de recherche, propose le modèle suivant :

  • Version épurée : Créateur (Année de publication) : Titre. Version. Editeur ou Lieu de publication. Type de données. Identifiant
  • Version complète : Créateur (Année de publication) : Titre. Editeur ou Lieu de publication. Identifiant

Certains entrepôts recommandent un format de citation mais peu semblent vraiment guider leurs utilisateurs. On peut néanmoins noter qu’un entrepôt proposant une citation par défaut de chacune des données ou de chacun des jeux de données dispose d’un atout car il propose un outil pour créditer les données, encourageant ainsi leur diffusion et leur réutilisation.

9. La reconnaissance : est-ce que cet entrepôt est utilisé par vos collègues ? Cette question peut devenir un critère de choix lors de la recherche d’un entrepôt. En ciblant des entrepôts utilisés par une communauté disciplinaire, on peut imaginer que vos données auront plus de chance d’être consultées et rediffusées.

Nous espérons que ces quelques outils et critères pourront vous fournir des pistes afin de choisir un entrepôt ou accompagner ce choix.

Pour aller plus loin, nous vous conseillons la lecture de ces deux études sur les services des entrepôts de données de recherche :