La fonctionnalité d’extraction des métadonnées à partir d’un fichier PDF s’enrichit maintenant des mentions légales encadrant la diffusion – licences Creative commons et Copyright – et permet ainsi de compléter automatiquement le formulaire de dépôt.
L’application qui extrait déjà les auteurs, titres, résumés, titres des revues, ainsi que les mentions des projets ANR (voir notre précédent billet) récupère désormais les mentions de licence présentes dans le fichier principal. Comme pour les autres métadonnées, il s’agit de compléter automatiquement la métadonnée correspondante.
L’objectif ? En priorité, faciliter la saisie des informations dans le formulaire de dépôt bien sûr et favoriser ainsi l’enrichissement de HAL avec des données complètes. On remarque en effet que la licence de diffusion est une information souvent oubliée : on comptabilise ainsi 363 504 dépôts avec fichier (au 4/12/2024) avec cette métadonnée renseignée.
Exposer les conditions de diffusion et de réutilisation
Compléter cette information permet de préciser les conditions dans lesquelles une publication déposée dans HAL peut être copiée, distribuée, modifiée ou réutilisée. Elle informe sur les droits d’usage des documents. Si l’auteur ou l’autrice a choisi une licence Creative Commons, cela favorise le partage des œuvres dans le respect des règles qu’il ou elle a fixées.
La métadonnée est surtout facilement identifiable et compréhensible par les outils numériques, tels que les moteurs de recherche, les applications et les bases de données. Si elle contient une licence Creative Commons, ces outils peuvent ainsi intégrer la publication dans des processus de distribution ou de réutilisation compatibles avec les droits définis.
On constate l’importance de cette métadonnée notamment avec le service de suggestion de dépôt HAL. Le service s’appuie en effet sur les licences Creative Commons pour satisfaire une condition essentielle : on ne propose une publication dans l’interface de suggestions de dépôts que si elle peut être diffusée en accès libre sur HAL. Si l’éditeur ne fournit pas la licence parmi les métadonnées associées au DOI, HAL ne peut pas proposer la suggestion(voir notre précédent billet sur le service de suggestion).
Compléter cette métadonnée dans une archive ouverte telle que HAL est donc essentiel pour encourager le partage de la recherche tout en protégeant les droits des auteurs. N’hésitez pas d’ailleurs à suivre le module d’auto-formation Choisir une licence Creative Commons pour son dépôt proposé sur l’espace formation !
L’extraction de cette métadonnée à partir du fichier PDF s’inscrit dans le cadre du projet Equipex+ HALiance, et plus précisément dans le work package 3 qui a pour objectifs de récupérer des métadonnées et des identifiants dans les fichiers déposés et d’enrichir automatiquement la base HAL. Le CCSD s’appuie sur une collaboration avec la société Science-Miner qui développe des outils open source d’exploration de textes scientifiques.