HAL : des archives institutionnelles en réseaux

HAL

Écrit par Agnès Magron

En mai dernier, des représentants de plusieurs réseaux nationaux et régionaux d’archives ouvertes ont signé un accord pour améliorer leur coopération : l’objectif est d’aboutir à une meilleure intéropérabilité entre ces réseaux. Elaboré par COAR (Confederation of Open Access Repositories), le texte définit des principes communs et des domaines de collaborations, qui visent notamment la définition de standards, API et protocoles communs pour soutenir une vaste gamme de services en réseaux.

Un réseau d’archives institutionnelles

Au niveau national, la France est déjà engagée avec HAL sur la voie d’un réseau d’archives institutionnelles. Aujourd’hui, ce sont 115 institutions – universités et regroupements d’universités, grandes écoles et organismes de recherche – qui gèrent et valorisent la production scientifique de leurs chercheurs avec un portail HAL. Un portail est un site web doté d’une url pérenne et d’une interface de dépôt, disposant de toute la gamme des services de HAL.

En gérant son archive dans HAL, une institution choisit bien plus qu’une infrastructure matérielle et logicielle : elle participe à la gestion d’un vaste réservoir partagé de données.

  • Les publications : les affiliations des auteurs dans chaque dépôt conditionnent l’alimentation automatique des portails. C’est ainsi que les institutions qui sont cotutelles d’un même laboratoire se partagent les publications produites par tous les membres de ce laboratoire. Plusieurs auteurs avec autant de laboratoires ? Le même principe s’applique pour chacune des tutelles ayant un portail : le même dépôt s’affichera et sera valorisé dans chacun d’eux.
  • Les référentiels : gérés avec la plateforme AURéHAL, ce sont surtout les référentiels des structures de recherche et des auteurs sur lesquels se porte plus particulièrement l’attention des responsables d’archives institutionnelles. Le référentiel des structures permet justement la gestion des liens entre équipes, laboratoires et leur(s) tutelle(e). D’une bonne administration de ces données dépend l’alimentation correcte des portails ainsi que des collections. Le référentiel des auteurs quant à lui permet notamment de faire le lien avec les données ajoutées par l’auteur lorsqu’il se crée son idHAL (identifiants ORCID et idRef ou url de son blog par exemple). Les référentiels des projets ANR et européens permettent en outre aux institutions d’extraire les publications issues de recherches financées sur les fonds de l’agence nationale ou l’union européenne.

Le réseau bénéficie en outre de la mise en commun d’outils et services développés par des utilisateurs de HAL, que ce soit pour importer des publications, améliorer la gestion des collections, exporter des listes, etc.  L’outil le plus répandu est Bib2HAL développé par INRIA et mis à la disposition de tous : cette application permet d’importer un lot de publications dans HAL à partir d’un fichier BibTeX. Autre exemple, OverHAL, développé à l’université Rennes-1, qui permet de comparer HAL et des listes de publications (WoS, Scopus, Zotero, Pubmed, etc.). La liste de ces outils et services peut être consultée sur la page dédiée du wiki enrichi par la communauté d’utilisateurs.

En 2016, la communauté des responsables de portails et des gestionnaires de collection s’est structurée en association pour former un club utilisateurs baptisé CasuHAL. Ses membres se réunissent en groupes de travail, échangent sur leurs pratiques et sont des interlocuteurs sur lesquels s’appuie le CCSD. Il vient ainsi consolider le réseau d’archives institutionnelles.

Liées à TEL, MediHAL et HAL-SHS

Ce réseau est lui-même connecté aux autres archives de HAL, qui sont aussi des portails mais bâties quant à elles sur d’autres critères qu’institutionnels :

  • TEL pour la diffusion des thèses. TEL est inscrite dans le circuit défini au niveau national pour le dépôt et la diffusion des thèses et est largement alimentée par le dispositif STAR de l’ABES ;
  • MediHAL pour l’archivage et la diffusion des images et vidéos ;
  • HAL-SHS, archive ouverte dédiée aux sciences humaines et sociales.

En étant une plateforme commune et partagée, HAL crée et renforce la synergie entre ces différents types d’archives.

Visibles dans OpenAIRE

Parmi les signataires de l’accord international figure OpenAIRE (Open Access Infrastructure for Research in Europe) : le rôle de cette infrastructure européenne est de diffuser en accès ouvert les publications et les données scientifiques des recherches financées sur fonds européens. Un des moyens mis en œuvre est d’agréger les données en moissonnant des réservoirs de données comme HAL, l’inscrivant de fait dans un réseau plus vaste de fournisseurs de données.

Et connectées aux grandes archives thématiques

Plus largement encore, les interconnexions de HAL avec les grands entrepôts disciplinaires que sont arXiv, Pubmed, Pubmed Central ou RePec bénéficient à tout son écosystème. La dimension nationale de HAL lui confère un rôle d’interlocuteur indéniable.

  • Depuis sa création, HAL est interconnectée avec arXiv, archive ouverte de référence dans les domaines de la physique, des mathématiques et de l’informatique. Un chercheur dans une de ses disciplines peut, au moment du dépôt de sa publication dans HAL, demander un transfert vers arXiv, lui évitant ainsi de faire la même opération sur cette base ;
  • Dans les sciences du vivant, ce sont les bases PubMed, PubMed Central et Europe Pubmed Central avec lesquelles HAL interagit : pour PubMed Central, l’INSERM pilote l’import de fichiers xml contenant le texte intégral des articles. Pour PubMed, les dépôts des versions auteurs sont signalés permettant ainsi à toute personne interrogeant cette base d’accéder à l’article même si elle ne dispose pas d’un abonnement à la revue ;
  • En économie, RePec est une ressource de référence : HAL transfère les métadonnées des dépôts des disciplines concernées pour qu’ils soient consultables là aussi depuis cette base.

C’est l’utilisation de protocoles et de standards communs (OAI-PMH, SWORD, Dublin Core) qui permet ces interconnexions : elles favorisent la visibilité des publications déposées dans HAL dans ces grandes bases, permettant leur circulation auprès de leurs communautés scientifiques. Elles insèrent tous les portails, qu’ils soient institutionnels, spécifiques ou thématiques dans un vaste réseau de réservoirs de données qui interagissent entre eux.