Comment garantir que les liens entre publications et données soient accessibles et exploitables ? [Parlons Science Ouverte #13]

Écrit par Léo Raimbault

Pour le dernier webinaire de l’année 2025, le cycle Parlons Science Ouverte proposait un regard croisé sur un enjeu désormais central : le lien entre publications scientifiques et données de la recherche.

Pourquoi ce lien est-il structurant pour la science ouverte ? Comment les infrastructures nationales s’organisent-elles pour le rendre effectif, interopérable et pérenne ? Et comment, concrètement, un projet de recherche s’approprie-t-il ces dispositifs ?

Pour répondre à ces questions, trois perspectives complémentaires ont été réunies :

  • Yannick Barborini (CCSD), responsable du développement de HAL et directeur technique du projet HALiance
  • Nicolas Larrousse (CNRS Huma-Num), responsable du pôle Coordination nationale et internationale des communautés, pour l’entrepôt Nakala
  • Amandine Wattelier-Bricout (CNRS, CESAH), docteure en études indiennes et ambassadrice HAL

Publications sans données associées : un scénario encore trop fréquent

Qui n’a jamais rencontré cette situation ; un article passionnant, des résultats prometteurs, mais un lien vers des données inactif, un serveur fermé, ou des fichiers introuvables ?

Ce cas n’est pas isolé. Le Baromètre français de la science ouverte montre qu’en 2023, si plus de 70% des publications françaises mentionnent l’utilisation de données, seules une minorité indique un partage effectif. En sciences humaines sociales, cette proportion descend à 4-5% des publications.

Pourtant, les bénéfices du partage sont documentés : les articles associés à des jeux de données déposés dans un entrepôt bénéficieraient d’un avantage de citation pouvant atteindre 25%. Au-delà de l’impact bibliométrique, l’enjeu est surtout scientifique, concernant la transparence, la reproductibilité, la réutilisation des produits de la recherche et l’interdisciplinarité.

Relier publications, données et logiciels n’est donc pas une formalité administrative, mais un levier structurant pour une recherche plus robuste et plus visible.

Un cadre national : vers un écosystème interconnecté

Le deuxième plan national pour la science ouverte (2021) affirme la nécessité de structurer un écosystème reliant les différents travaux issus de la recherche (publications, données, logiciels…).

Cette articulation repose sur plusieurs briques essentielles :

  • des identifiants pérennes (DOI, ARK, SWHID)
  • des métadonnées structurées
  • des protocoles d’interopérabilité

C’est dans ce contexte qu’a émergé un travail conjoint entre HAL, Recherche Data Gouv et Nakala, d’abord amorcé dans le cadre du projet européen EOSC-Pillar, puis consolidé dans le projet structurant HALiance.

HAL-Nakala : de la preuve de concept à la mise en production
Normaliser les relations

Pendant longtemps, les liens entre publications et données existaient, mais de manière hétérogène : renseignés dans un champ libre, glissés dans une description, voire intégrés au titre. Faute de normalisation, ces mentions restaient peu moissonnables, difficilement interprétables et, de ce fait, largement sous-exploitées.

Le travail mené a donc consisté à ;

  • refondre le système de création de la relation dans HAL
  • S’appuyer sur le vocabulaire standardisé DataCite pour typer les relations
  • mettre en place des aides et des mécanismes de validation (contrôle des DOI, vérification des identifiants…)
Échanger les informations entre entrepôts

L’étape décisive réside toutefois dans l’échange automatisé de ces informations entre entrepôts. Pour cela, les équipes se sont appuyées sur le protocole international COAR Notify, qui permet à une plateforme d’en notifier une autre lorsqu’une relation est transmise. La relation réciproque peut alors être générée automatiquement. Depuis juin 2025, ce dispositif est opérationnel entre les deux plateformes.

Les liens ainsi créés ne restent pas confinés aux interfaces locales. Ils sont exposés dans les exports et les API, publiés via DataCite et exprimés au format Scholix, standard international pour les relations entre données et publications. Ils peuvent ainsi être moissonnés par des agrégateurs comme OpenAIRE, ce qui renforce leur visibilité à l’échelle internationale.

Vers des publications enrichies

Au-delà du simple affichage d’un lien, cette infrastructure ouvre la voie à des évolutions plus ambitieuses. Les échanges engagés avec les plateformes de OpenEdition visent à permettre une intégration plus fine des données dans les environnements éditoriaux. L’articulation avec Software Heritage pour les logiciels s’inscrit dans la même logique : relier durablement l’ensemble des productions de la recherche.

Le maillage technique mis en place constitue ainsi une base solide pour développer des publications enrichies ou complexes, où articles, données, et codes ne seraient plus dissociés.

Le projet Dharma : relier les briques dans la pratique

L’intervention d’Amandine Wattelier-Bricout a permis d’illustrer concrètement ces enjeux à travers le projet ERC Synergy Dharma, consacré à l’étude d’inscriptions d’Asie du Sud et du Sud-Est. Le projet produit des photographies d’artefacts, des métadonnées détaillées, des éditions critiques de textes, des catalogues et des articles scientifiques. Chaque étape du cycle de vie de la donnée est documentée, depuis la mission de terrain jusqu’au dépôt entre entrepôt.

Les images sont déposées dans Nakala, où elles sont identifiées par un DOI. Des catalogues ou prépublications sont déposés dans HAL. Les liens établis entre ces objets permettent à un lecteur de naviguer du billet de terrain au jeu de données, puis à la publication scientifique. Cette articulation rend visible non seulement le résultat final, mais aussi le processus de production des connaissances.

Un exemple marquant concerne la documentation d’une collection peu cataloguée dans un musée universitaire. En publiant un catalogue en prépublication et en déposant les images correspondantes, le projet rend ces ressources repérables et réutilisables par d’autres chercheurs, au-delà de ses propres objectifs scientifiques. La donnée devient ainsi un objet scientifique à part entière, inscrit dans un réseau de relations explicites.

Un enjeu collectif

Les échanges avec les participants ont rappelé que ce travail d’interconnexion ne concerne pas uniquement HAL et Nakala. D’autres entrepôts sont appelés à rejoindre progressivement ce dispositif, à mesure que les standards d’interopérabilité se diffusent. Si la dimension technique est essentielle, l’appropriation par les communautés scientifiques l’est tout autant.

Relier publications, données et logiciels, c’est documenter la recherche dans toute sa profondeur. C’est donner à voir non seulement des résultats, mais aussi les matériaux et les méthodes qui les rendent possibles. En ce sens, le lien entre publications et données constitue l’un des fondements d’une science ouverte, durable et pleinement intégrée aux pratiques de recherche.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.