Infrastructures de recherche : aide à la saisie dans HAL avec les données extraites du fichier déposé

Écrit par Agnès Magron

Le formulaire du dépôt HAL s’est enrichi fin 2023 d’une nouvelle métadonnée qui vous permet de préciser quelle infrastructure de recherche a été utilisée lors de vos recherches. HAL franchit une autre étape et propose maintenant une aide à la saisie à partir des données extraites du fichier PDF déposé.

Pour rappel, les infrastructures de recherche sont labellisées par le Ministère de l’Enseignement Supérieur et de la Recherche dans la feuille de route nationale.

La liste des infrastructures disponibles pour compléter le dépôt est une liste fermée, issue des données disponibles sur data.gouv. La saisie dans le formulaire de dépôt se fait par auto-complétion : il suffit de saisir l’acronyme ou une partie du nom puis de sélectionner celle qui convient (voir aussi  la documentation). Depuis la mise en production en décembre dernier, ce sont ainsi près de 2 800 dépôts qui ont été complétés avec cette information.

Extraire les mentions d’infrastructure de recherche présentes dans le fichier PDF

L’application qui extrait déjà les métadonnées descriptives telles que les auteurs, titres, résumés, titres des revues et financements ANR évolue et extrait aussi les infrastructures de recherche.

Ainsi, si l’une d’elle est mentionnée dans le fichier déposé (rubriques Acknowledgments ou bien Funding), l’application extrait la mention et vérifie si l’infrastructure est référencée dans la liste issue des données mises à dispositions sur data.gouv. Si ces deux conditions sont remplies, cela permet de compléter automatiquement le formulaire de dépôt.

Comme pour toute information extraite du fichier pour compléter une métadonnée, le déposant est invité à la vérifier avant d’enregistrer son dépôt.

L’objectif de cette évolution est de simplifier le dépôt. Elle s’inscrit dans le cadre du projet Equipex+ HALiance, et plus précisément dans le work package 3 qui a pour objectifs de récupérer des métadonnées et des identifiants dans les fichiers déposés et d’enrichir automatiquement la base HAL. Le CCSD s’appuie sur une collaboration avec la société Science-Miner qui développe des outils open source d’exploration de textes scientifiques.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.