Optimiser les services de HAL avec l’identifiant ROR pour les affiliations

HALSubscribe

Écrit par Agnès Magron

Comme l’ORCID ou l’idHAL pour les chercheur.e.s, il existe des identifiants uniques pour les organisations qui sont utilisés dans les systèmes d’informations pour lever les ambiguïtés et associer de façon sûre les informations entre elles. L’identifiant ROR en est un, dédié aux organismes de recherche. Enrichir la base HAL avec cet identifiant permet de renforcer l’interopérabilité de la plateforme et d’améliorer un service comme l’affiliation automatique lors du dépôt. C’est dans ce contexte qu’une campagne d’enrichissement a été menée récemment avec le concours des personnes en charge de l’administration de portails et de la gestion de collections.

Qu’est-ce que le ROR ?

Le Research Organization Registry (ROR) est une base de données collaborative qui comprend des identifiants et des métadonnées pour plus de 102 000 organisations impliquées dans la recherche. L’identifiant ROR est exploité dans de nombreux environnements, pour qui la problématique d’associer les auteurs et leur affiliation est capitale comme, par exemple, un éditeur, une base de données bibliographiques  et bien sûr une archive ouverte telle que HAL.

Le ROR est une des quatre infrastructures internationales soutenues cette année par le Fonds National pour la Science Ouverte.

Le ROR vise plutôt des organisations de niveau institution (université, organisme de recherche) mais de nombreux laboratoires ont aussi un identifiant de ce type. On compte actuellement dans les données de référence de HAL (auréHAL) 1299 institutions et organismes identifiés avec un ROR.

Compléter les informations qui décrivent les structures de recherche dans auréHAL avec le ROR – comme avec tout autre identifiant – permet d’améliorer l’interopérabilité entre les données de HAL et d’autres sources de métadonnées bibliographiques. Cela favorise ainsi leur capacité à être découvertes et repérées par d’autres systèmes et optimise la performance des services qui s’appuient sur l’identification des structures (dépôts par API et affiliation automatique des auteurs).

L’affiliation automatique comme cas d’usage

Tous les éditeurs ne gèrent pas les affiliations avec cet identifiant, mais, dans le cas où ils l’utilisent, c’est une information qu’ils peuvent fournir dans les métadonnées associées à l’identifiant DOI du document. Lors du dépôt, en extrayant les métadonnées associées au DOI, HAL peut ainsi récupérer l’identifiant et vérifier s’il n’existe pas déjà dans sa base.

schéma alignement ROR-auréHAL lors du dépôt

Si c’est le cas, HAL pourra proposer de façon fiable la structure de recherche ainsi identifiée comme affiliation. D’où l’intérêt d’avoir un maximum de structures de recherche identifiées.

Enrichissement collaboratif

Les administrateurs de portail, lors de leur activité de curation dans le référentiel des structures, peuvent ajouter manuellement cet identifiant. Par ailleurs, le CCSD opère régulièrement des enrichissements automatiques, notamment en partenariat avec l’ABES pour les identifiants IdRef et ORCID pour les auteurs. Il poursuit maintenant ce travail d’alignement sur les structures de recherche.

Les administrateurs de portail et les gestionnaires de collections ont donc été sollicités pour cette campagne d’enrichissement menée en mars-avril : à partir d’une liste d’institutions croisant les données d’auréHAL et celles du ROR, ils étaient invités à vérifier et valider le ROR trouvé. Si le ROR proposé n’était pas valide, il leur était possible de fournir le bon. Cette vérification humaine était une étape indispensable avant tout import automatique dans la base.

Un grand merci à toutes et tous qui avez participé puisque grâce à vous, ce sont ainsi 314 identifiants ROR qui ont été ajoutés dans auréHAL.

Ce chiffre peut paraître faible mais il en cache un autre beaucoup plus conséquent qui représente le nombre de mises à jour sur les dépôts : tous les dépôts qui contiennent le nom d’une des structures concernées ont en en effet été mis à jour avec cette information, améliorant ainsi leur découvrabilité (enrichissement de la TEI, de l’API, des différents exports, etc.,). Les institutions couvrant un large périmètre, ce sont près de 3 millions de mises à jour sur les dépôts qui ont été effectuées*.

Partageons les méthodes …

La campagne a permis également d’évaluer la méthode d’extraction des données : sur les 329 structures contrôlées ainsi manuellement, seulement 19 ont été déclarées non valides. Les erreurs portaient le plus souvent sur la façon dont sont renseignés les noms des structures dans auréHAL (par ex : mix du nom du laboratoire et de celui d’une tutelle) ou bien des fiches structures inexistantes dans ROR.

La méthode d’extraction des données du ROR s’appuie sur une méthode d’alignement automatique basée sur Elasticsearch développée par l’équipe du Baromètre pour la Science Ouverte (BSO) et décrite ici. Afin de trouver un ROR correspondant à une fiche structure présente dans auréHAL, l’outil effectue une comparaison approximative entre d’un côté les métadonnées disponibles dans auréHAL et de l’autre les métadonnées du référentiel cible (ici le ROR).

L’équipe du CCSD et celle du BSO ont pu analyser les résultats et les retours de la campagne menée sur le corpus des structures dans HAL, et ainsi faire émerger des pistes d’amélioration et d’ajustement de l’outil d’alignement, par exemple en prenant en compte les rapprochements géographiques et les url des sites web pour mieux identifier les correspondances entre fiche structure auréHAL et ROR. L’amélioration de l’outil bénéficie ainsi largement à toute la communauté de l’Enseignement Supérieur et de la Recherche.

Ce travail d’alignement sur les structures de recherche, mais au niveau laboratoire cette fois, va se poursuivre avec l’identifiant RSNR (Répertoire National des Structures de Recherche).  L’ensemble de ce travail d’alignement s’intègre dans le work package 3 dédié à l’extraction et à l’alignement des métadonnées du projet Equipex+ HALiance.

* un dépôt pouvant être mis à jour plusieurs fois, additionner les dépôts ne correspond donc pas à la réalité. Journal des mises à jour : mise à jour ROR de 124 institutions (1 358 092 documents ré-indexés) ;  mise à jour ROR de 68 institutions (510 614 documents ré-indexés) ; mise à jour ROR de 103 institutions (1 073 426 documents ré-indexés) et mise à jour ROR de 19 institutions (18 413 documents ré-indexés).

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.