En six mois, le service de suggestions de dépôts a permis d’enrichir automatiquement HAL avec le texte intégral de plus de 8 000 publications, identifiées par un DOI et déjà en libre accès. Les sciences du vivant et la physique sont les deux disciplines les plus actives jusqu’à présent.
Le service de suggestions de dépôts a déjà 6 mois ! Le principe de ce service proposé aux chercheur·es est de leur suggérer des fichiers à importer dans HAL. A partir de l’identifiant DOI, il s’agit de repérer leurs publications qui sont déjà en libre accès sur d’autres plateformes pour les proposer dans une interface : si l’utilisateur valide la suggestion, le fichier est importé automatiquement sans aucune autre intervention de sa part. La fonctionnalité concerne aussi bien l’ajout du fichier à une notice existant déjà dans HAL (les métadonnées de la notice ne seront pas modifiées) que la création du dépôt si la publication n’est pas déjà référencée.
Quel bilan peut-on tirer jusqu’à présent de cette nouvelle voie d’alimentation de HAL ?
Vous êtes près de 20 000 utilisateurs et utilisatrices à avoir consulté au moins une fois la page “Suggestion de dépôt” de votre espace et presque autant à avoir configuré le service pour être averti.es de toute nouvelle suggestion. La base de suggestions concerne toute publication publiée à partir de 2014 et est mise à jour une fois par mois. Elle contient actuellement plus 97 000 références de publications.
En six mois d’utilisation, 8 070 fichiers contenant le texte intégral de publications ont été importés dans HAL par 3166 utilisateurs différents. Ces imports sont quasiment tous des articles publiés dans des revues.
La moyenne est de 2,5 imports par utilisateur. Et le record du nombre de publications importées par un seul utilisateur est … 87 !
Répartition par disciplines et origine des fichiers
Si l’on regarde les disciplines des dépôts importés, ce sont les publications en sciences de la vie qui sont le plus représentées (35,4% des imports), suivies par celles en physique (17,9%).
En croisant cette information avec la répartition des principales plateformes sources sur lesquelles les fichiers en libre accès sont localisés et récupérés, on a quelques éléments d’explication sur cette répartition. Archive ouverte de référence pour la physique, arXiv est la source pour 16,6% de ces imports ; pour plus de 15% de ces imports, les sources des fichiers sont Pubmed Central (NCBI) et Europe PMC, qui sont, quant à elles, les archives de référence pour les sciences du vivant.
11,7 % des imports sont des articles parus dans une revue publié par MDPI , qui est le premier éditeur a engranger le plus d’APC (author processing charge) selon le recueil de données sur les dépenses de publications réalisé par le consortium Couperin.
Les fichiers de près de 3 000 imports viennent de sources aussi différentes que Zenodo, bioRxiv, IEEE, IOP Science, ou Digital CSIC, pour n’en citer que quelques unes.
Constats et challenges
On notera l’absence de publications importées depuis une revue publiée chez Elsevier qui figure aussi en bonne place dans les résultats de Couperin. C’est un des constats réalisés par le CCSD pour le service de suggestions : certains éditeurs mettent en place des barrières techniques qui bloquent la récupération par des machines de fichiers contenant le texte intégral de publications qui sont pourtant en libre accès.
Certains d’entre vous qui avez validé des suggestions proposées ont sans doute été surpris d’une demande de modification de la part des équipes de modération. Chaque fichier importé est en effet vérifié avant d’être mis en ligne. Il arrive ainsi que des fichiers suggérés soient des fichiers éditeur sous copyright, sans doute déposés sur des plateformes qui ne procèdent pas à des vérifications avant de diffuser en ligne. Ce qui explique ce type de demandes qui vous sont faites.
Le constat le plus marquant est la dépendance du service à la présence des licences Creative Commons dans les métadonnées. Le service s’appuie en effet sur les licences pour satisfaire une condition essentielle : on ne propose une publication dans l’interface de suggestions de dépôts que si elle peut être diffusée en accès libre sur HAL. Si l’éditeur ne fournit pas la licence parmi les métadonnées associées au DOI, HAL ne peut pas proposer la suggestion.
Une des perspectives de développement logiciel est de vérifier la présence de la licence de diffusion dans le fichier lui-même, ce qui permettra de s’affranchir en partie de cette dépendance. Au-delà des problématiques techniques, le CCSD souhaite promouvoir ce service auprès des chercheur.es afin d’exploiter au mieux le potentiel qu’il représente.
Le service de suggestions de dépôt, axe majeur du projet Equipex+ HALiance, représente une nouvelle voie d’alimentation de HAL et est une façon ultra-simple de déposer vos publications. Et si vous alliez voir si HAL vous fait des suggestions ?