Améliorer l’identification des auteurs dans HAL : évolution du mode de gestion des auteurs

HALSubscribe

Écrit par CCSD

Le mode de gestion des auteurs dans HAL évolue : l’objectif est d’optimiser l’exploitation des identifiants chercheurs et faciliter la gestion des auteurs dans AuréHAL par les administrateurs de portail. Il y aura quelques adaptations dans la configuration de l’idHAL mais rien ne change dans le dépôt. La migration de la base nécessitera un arrêt de service qui débutera vendredi 10 juin à 16h. HAL sera à nouveau pleinement disponible à partir du lundi 13 juin 9h

La base de données HAL contient presque 3 millions de noms d’auteurs : identifier sans ambigüité un auteur, gérer les homonymes et les différentes façons dont un nom est enregistré est un enjeu afin d’associer correctement les publications déposées au bon auteur. Les identifiants chercheurs comme l’idHAL ou l’ORCID permettent précisément de répondre à cet enjeu.

Avec la multiplicité des ressources numériques et sources d’information, la gestion de ces identifiants dans HAL facilite à la fois le traitement des données en interne et  leur exploitation par d’autres applications ou plateformes.

Faciliter l’exploitation automatique des identifiants

Actuellement, l’idHAL est indispensable pour associer un auteur avec des identifiants chercheurs ; il est donc lié à un compte utilisateur.

L’objectif de l’évolution du mode de gestion des auteurs vise à optimiser la gestion des identifiants (ORCID, IdRef) en permettant d’identifier un auteur même s’il n’est pas utilisateur. On pourra ainsi mieux exploiter des identifiants, qu’ils soient récupérés automatiquement, comme un ORCID présent dans les métadonnées extraites du DOI au moment du dépôt, ou importés, comme l’IdRef de l’auteur d’une thèse importée par l’Abes. Actuellement, ils sont seulement affichés dans la notice.

Pour l’utilisateur, qu’est-ce que ça change ? Prenons l’exemple d’une publication qu’on dépose dans HAL. Cette publication a un DOI et les métadonnées que l’éditeur a associées au DOI contiennent aussi l’ORCID de l’auteur : lors de l’extraction automatique des métadonnées lors du dépôt, on récupère aussi cet identifiant. Avec le nouveau modèle de gestion des auteurs, on vérifiera si un compte utilisateur est déjà associé à ce compte ORCID, et, si c’est le cas, on associera de façon sûre le dépôt à cet utilisateur. Autre exemple, un chercheur crée un compte dans HAL et l’associe à son compte ORCID. Grâce au nouveau modèle de gestion, on vérifiera si cet ORCID est déjà présent dans des publications et, si c’est le cas, on pourra les associer automatiquement.

Un des bénéfices de l’évolution est aussi d’améliorer la gestion de la graphie des noms d’auteurs : pour les noms à particules, il sera possible dans AuréHAL d’avoir plusieurs formes (Erik von Striber et Erik Von Striber, Jacques de la Tour et Jacques de La Tour).

Enfin, cette évolution permettra aux administrateurs de portail de gérer les auteurs dans AuréHAL. Ils pourront modifier ou enrichir les identifiants des auteurs de leur institution, associer différentes formes auteurs ainsi que les dépôts. Si les auteurs ayant déjà un idHAL les sollicitent parce que des dépôts n’apparaissent pas dans leur CV ou, à l’inverse, des publications dont ils ne sont pas auteurs y sont affichées, ils pourront les aider via AuréHAL. Ces nouvelles fonctionnalités représentent un changement notable pour les administrateurs et le CCSD a mis en place un dispositif particulier pour les accompagner.

Identité numérique et idHAL

Le rôle de l’idHAL quant à lui ne change pas : il est indispensable pour la création du CV chercheur dans HAL. Avec son format prénom-nom, il est facile à retenir, ce qui est un atout au service de l’ identité numérique du chercheur. Vous êtes plus de 57 000 utilisateurs à avoir créé un idHAL. Cet identifiant est reconnu et utilisé par de nombreuses applications (par ex les applications CRAC ou Ribac pour les chercheur.e.s CNRS, l’outil DMP OPIDOR pour les plans de gestion de données) ou pour alimenter automatiquement des pages web (page personnelle sur un site web).

Préparation de la migration des données et enrichissement

Préparer la migration des données actuelles dans le nouveau modèle de gestion des données auteur a nécessité un important travail de nettoyage et de reprise des données. Le nettoyage a notamment permis de corriger des formes auteurs en majuscules, des emails contenant des caractères spéciaux, des formats erronés d’identifiants ou encore de supprimer des identifiants présents en double.

De plus, une collaboration avec l’Abes a permis d’enrichir AuréHAL avec 46 000 idRef d’auteurs : en croisant les données fournies par l’Abes et celles de HAL, 20 000 idRef correspondent à un idHAL et 26 000 ORCID sont présents dans les deux bases.

Tous les identifiants ORCID et IdRef, présents dans la base sans être associés à un idHAL seront désormais exploitables dans AuréHAL. Plus on a d’identifiants, plus on peut attribuer automatiquement les publications.

L’implémentation du nouveau référentiel (nouveau modèle des données, migration des données existantes) nécessitera un arrêt de service de HAL et AuréHAL le vendredi 10 juin à  partir de 16h jusqu’au lundi 13 juin à 9h. HAL pourra être consulté durant le week-end mais il ne sera pas possible de se connecter.