Une nouvelle fonctionnalité pour faciliter le repérage des doublons dans son portail HAL

La détection des doublons dans un portail HAL est désormais facilitée : le menu d’administration dédié (Administrer/Gestion des doublons) s’enrichit d’une nouvelle fonctionnalité qui liste les dépôts potentiellement en doublon.

Malgré l’attention des déposant.es et des utilisateurs et utilisatrices, les dépôts en doublon constituent un enjeu récurrent pour le maintien de la qualité de la base. Les équipes chargées de l’administration d’un portail sont très souvent à la manœuvre grâce à un menu dédié… mais souvent au prix d’un travail long et minutieux.

Bonne nouvelle ! Pour alléger leur charge de travail, un outil de détection de doublons complète maintenant ce menu et fournit une liste de doublons potentiels.

Le corpus de dépôts visibles dans le portail est comparé à l’ensemble des dépôts de HAL. À partir des correspondances trouvées, l’administrateur ou l’administratrice peut choisir de fusionner les notices lorsqu’elles décrivent un même document, ou au contraire écarter un faux positif. Cela permet d’affiner progressivement la détection, rendant l’outil encore plus pertinent au fil du temps.

Page écran du menu d'administration/Gestion des doublons. Les dépôts sont listés sur 2 colonnes permettant de montrer par paire les doublons potentiels.

Un champ de recherche permet de faire une requête sur une structure, un auteur, un identifiant, etc. (voir aussi la documentation).

Comment est produite la liste de doublons potentiels ?

L’algorithme de HAL s’appuie sur deux outils pour repérer les doublons potentiels : CorHAL et biblioGlutton.

CorHAL est la base de données produites par l’Inist qui sert aussi pour produire les suggestions de dépôt. Son module de dédoublonnage repose sur un ensemble de règles et utilise le moteur de recherche Elastic search.
Biblio-glutton est un service de gestion, d’enrichissement et de désambiguïsation des références bibliographiques qui utilise également Elastic Search. La fonctionnalité de dédoublonnage compare les documents un à un. Un algorithme de similarité entre chaînes de caractères est appliqué pour les titres et les titres de revue. Pour chaque doublon, il calcule une note de fiabilité (entre 0 et 1) en effectuant la moyenne des scores de comparaisons du titre, du premier auteur, la date de publication et le titre de la revue.

Cette nouvelle fonctionnalité de détection de doublons vise à améliorer la qualité des données tout en réduisant le temps consacré à la gestion manuelle. Elle est déployée dans le cadre du projet Equipex+ HALiance.

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.