Cryptology Eprint Archive et RepositoriUM : deux nouvelles archives connectées à Episciences

Écrit par Delphine Crubellier

Deux nouvelles archives sont maintenant interopérables avec Episciences : Cryptology Eprint Archive et RepositoriUM. Ces nouvelles connexions permettent à Episciences d’être désormais compatible avec trois solutions logicielles très répandues pour la gestion des dépôts de données et de documents :  Dspace, Eprint et Dataverse.

Cryptology ePrint Archive est une archive disciplinaire, utilisée par la communauté des chercheurs et chercheuses en mathématiques. La connexion avec une archive de ce type répond à un besoin exprimé par les revues ou les communautés scientifiques qui souhaitent publier sur Episciences – comme ici, en réponse à la demande de la revue jGCC.

RepositoriUM est l’archive institutionnelle de l’Université du Minho au Portugal : ce nouveau partenariat voit le jour dans le cadre de la Confederation of Open Access Repositories (COAR) et de l’implantation de leur protocole COAR Notify, qui permettra aux chercheurs et chercheuses de l’institution portugaise de soumettre leurs preprints aux revues d’Episciences directement depuis l’archive RepositoriUM. La connexion est en cours de validation, et sera disponible après une dernière phase de test.

Les archives sont ajoutées en fonction des besoins exprimés par les revues ou les communautés scientifiques, selon des sollicitations émanant des institutions qui hébergent les archives, ou encore pour élargir la couverture géographique d’Episciences. Ces connexions permettent de renforcer l’impact de la plateforme dans le paysage éditorial scientifique.

Un modèle éditorial fondé sur l’interconnexion avec des archives ouvertes

En effet, du fait de son modèle de publication, le bon fonctionnement et la portée d’Episciences dépendent de sa capacité à se connecter à des archives ouvertes diversifiées. Les services pour l’évaluation et la publication que la plateforme propose sont en effet adossés à des archives ouvertes – modèle overlay : Episciences n’héberge pas les publications, elle récupère les documents et leurs informations depuis des archives où ils ont été déposés. Les revues choisissent les serveurs qui sont pertinents pour leur discipline, et les auteurs et autrices des publications restent à l’initiative de l’archivage de leur document (green open access). Ce fonctionnement facilite entre autres la mise en conformité de la plateforme avec la stratégie de rétention des droits du plan S. La plateforme est ainsi connectée à arXiv, bioRXiv, medRXiv, HAL, Zenodo, Software Heritage, DarUS, Recherche Data Gouv et Arche.

Les défis techniques de la connexion : comment relier les plateformes entre elles ?

Le travail de connexion dépend de l’archive et de la solution technique sur laquelle elle repose , ainsi que  du format de métadonnées qu’elle prend en charge. A minima, il faudra que l’archive propose une URL de service compatible avec au moins un format standard comme Dublin Core, qui constitue un langage commun entre Episciences et l’archive. Des formats enrichis peuvent être aussi utilisés mais sont optionnels (ex. OpenAIRE, etc.).

Quelle que  soit l’archive, certains éléments du travail restent les mêmes : la logique de moissonnage (via des protocoles standardisés comme OAI-PMH) ainsi que la méthode de stockage (dans l’archive ouverte, pas d’hébergement sur Episciences) sont les mêmes pour toutes les solutions logicielles.

En revanche, certains aspects de la connexion demandent une adaptation aux comportements techniques propres à chaque archive. Ainsi :

  • l’analyse et l’extraction des métadonnées doit s’adapter à la manière dont l’archive les structurent,
  • le traitement et le nettoyage des métadonnées dépendra des règles et champs obligatoires établis par les archives,
  • la gestion des versions ainsi que l’attribution d’identifiants à ces versions est variable selon les archives : Episciences s’adapte à ces règles pour récupérer, afficher et lier les versions de manière transparente pour les utilisateurs.

Les principaux défis à relever concernent la gestion des versions. Le lien entre les versions d’un même article n’est pas toujours explicite – ce qui peut entraîner des risques de doublons, de la perte d’information contextuelle, et obérer le travail d’Episciences par des traitements ad hoc. La qualité des métadonnées ou la gestion des identifiants peut freiner l’identification de deux dépôts d’un même article, ce qui contraint à développer des moyens de faire ces rapprochements. Ainsi, il est parfois nécessaire de construire la logique de gestion des versions du côté d’Episciences, ce qui représente des développements techniques importants (connecteurs, comparaison de métadonnées, etc.).

Le processus de validation  : mobiliser les communautés d’utilisateurs de la plateforme

Outre les phases de tests internes, le processus de mise en production passe par un déploiement en pré-production dans un environnement identique à la production et qui est accessible aux équipes éditoriales des revues. Elles peuvent y mener des tests sur l’ensemble du flux de travail sans risque et proposer des améliorations à l’équipe d’Episciences. Une fois la fonctionnalité de connexion avec l’archive mise à disposition sur l’environnement de production, le code d’Episciences étant ouvert, les bugs et autres propositions d’amélioration peuvent être signalés ou proposés via l’espace GitHub dédié par les contributeurs et contributrices des revues.

Les perspectives : bénéficier des développements déjà réalisés et les optimiser

Les développements qui ont été faits jusqu’à présent pour connecter Episciences à des archives ouvertes développées avec Dataverse, DSpace et EPrints l’ont rendue compatible avec trois solutions largement répandues pour la gestion de dépôts de données et de documents. Cette compatibilité réduit considérablement les efforts d’intégration d’autres archives ou serveurs de preprints qui utilisent déjà ces logiciels. Le module de moissonnage OAI-PMH, qui permet de générer des requêtes standardisées auprès des archives, et de récupérer les réponses au format XML pour détecter les nouveaux dépôts et mises à jour est ainsi compatible avec ces trois solutions. Le traitement et la normalisation des métadonnées qui permet de les rendre disponible tout au long du flux de publication (soumission, évaluation, publication) est aussi applicable aux trois logiciels.

La connexion avec les archives ouvertes peut être enrichie grâce à l’intégration du protocole COAR Notify, qui permet aux infrastructures de s’alerter mutuellement en temps réel lorsqu’un objet de recherche (article, jeu de données, etc.) est déposé, mis à jour ou modifié, afin d’améliorer l’interopérabilité et la synchronisation entre plateformes. Le protocole sera mis en œuvre entre RepositoriUM et Episciences. Il permet de pousser plus loin l’interopérabilité entre les infrastructures, en transformant les échanges de métadonnées en processus bidirectionnels, en ajoutant des informations de contexte aux métadonnées de base, et en permettant une synchronisation immédiate.

Grâce à ces développements, Episciences envisage maintenant d’intégrer Digital CSIC (l’archive gérée par le CSIC – Consejo Superior de Investigaciones Científicas, Espagne – et développée sur Dspace), ainsi que BAOBAB (l’archive développée par WACREN – West and Central African Research and Education Network – développée avec InvenioRDM).

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.