La visibilité des archives ouvertes était le thème d’une journée d’étude organisée par le consortium Couperin le 20 novembre dernier.

Les présentations des agrégateurs de contenus en libre accès comme BASE ou CORE, ou encore celle du moteur de recherche ScanR permettent de constater la place essentielle de HAL comme source de données pour la diffusion et le rayonnement des publications scientifiques françaises.

Bénédicte Kuntziger du CCSD était invitée à présenter le référencement et la visibilité de HAL. Un précédent billet a déjà abordé les principaux sites sur lesquels les dépôts HAL sont référencés (mis à jour dans la documentation) :  outre BASE, CORE et ScanR déjà cités, HAL est moissonné par Google Scholar, OpenAIRE, Isidore pour les SHS, Dart-Europe pour les thèses.

Un travail important est réalisé pour la visibilité des dépôts en sciences de la vie dans PubMed, Europe PubMed et, grâce à un partenariat avec l’INSERM, dans PubMed Central. Quant aux dépôts en économie, ils sont référencés dans RePec. Les dépôts de code source de logiciel sont référencés dans Software Heritage.

Ce billet abordera plus particulièrement les aspects techniques permettant aux machines d’accéder aux contenus de HAL.

OAI-PMH

L’OAI-PMH (Open Archives Initiative-Protocol for Metadata Harvesting) est un protocole pour la collecte de métadonnées. Le fonctionnement de base du protocole OAI-PMH repose sur une communication de client à serveur. Le serveur ici est HAL. HAL peut être moissonné intégralement ou par ensembles, qu’on appelle set OAI. Les ensembles proposés par HAL sont les types de document, les disciplines scientifiques et les collections.

Les types de sets OAI

Un « client » pourra par exemple ne collecter que les thèses ou bien une collection de laboratoire.

Les APIs

Les APIs (Application Programming Interface) sont des interfaces qui permettent une communication machine à machine. À partir d’une requête, n’importe quel site web peut afficher une liste de dépôts. Les données de HAL comme celles des référentiels (affiliations, auteurs, disciplines, revues, projets, listes de métadonnées, etc.) sont disponibles via des APIs, amplifiant d’autant les possibilités d’exploitation des contenus.

Data.archives-ouvertes.fr

Une autre façon d’exposer les données est de les proposer structurées au format RDF ( Resource Description Framework), qui est le langage mobilisé pour le web sémantique. Les métadonnées de HAL sont disponibles sous ce format dans le portail data.archives-ouvertes.fr. Le portail est récent et nous avons peu de retours sur l’utilisation des données de HAL au format RDF.

Optimisation pour les moteurs de recherche

L’optimisation pour les moteurs de recherche, référencement naturel ou SEO (pour search engine optimization), est un ensemble de techniques visant à améliorer la visibilité d’une page web dans les résultats de recherche. Sachant que la majorité des internautes se contentent des premiers résultats, et vont rarement au-delà de la première page, l’optimisation est un enjeu important.

Un travail sur les métadonnées dans le code source des documents a été réalisé : les métadonnées ajoutées dans le code source des pages permettent une meilleure identification des documents par Google Scholar, mais aussi d’autres outils tels que Zotero.

Exemple de code source de page

De plus, pour améliorer le référencement dans Google et Google Scholar, et à la demande de leurs services, un dédoublonnage des URL d’accès aux documents a été réalisé. En effet, un même dépôt peut être accessible depuis plusieurs adresses URL (portail, collection), ce qui augmente sa visibilité mais … complique l’identification de la source des documents par  l’algorithme de Google. Depuis cette année, l’URL du fichier fournie aux robots de Google est celle de son portail de dépôt. Cette modification profite également aux autres moteurs de recherche.

 

Structure homogène des URLs

Chaque dépôt a un identifiant qui permet de construire son URL sur le format  https://hal.archives-ouvertes.fr/hal-XXXXXXXX. L’URL d’accès au fichier principal est prédictible avec le format https://hal.archives-ouvertes.fr/hal-XXXXXXXX/document. Par exemple, le fichier du dépôt hal-01917105 est accessible avec l’URL https://hal.archives-ouvertes.fr/hal-01917105/document

C’est le moyen utilisé notamment par Episciences pour ‘trouver’ automatiquement  l’URL d’accès au document principal.

Sur le même principe, un programme/robot peut prédire l’URL des formats d’export des métadonnées d’un document.

Par exemple :

https://hal.archives-ouvertes.fr/hal-01917105v1/bibtex
https://hal.archives-ouvertes.fr/hal-01917105v1/tei
https://hal.archives-ouvertes.fr/hal-01917105v1/endnote

Mais d’ou viennent les utilisateurs ?

Selon les statistiques de consultation des pages, l’écrasante majorité des utilisateurs arrive sur une page HAL via un moteur de recherche, Google en tête. En 2018, les statistiques comptabilisent ainsi plus de 3 millions de visites via Google. On note également en 2018 un accroissement des consultations en provenance des réseaux sociaux, Facebook en tête mais on reste encore très loin de Google.

Comme on le voit, le CCSD mobilise les formats, normes et protocoles standardisés pour faciliter l’accès aux publications déposées dans HAL. Il suit notamment les travaux menés au sein de COAR (Confederation of Open Access Repositories), association internationale qui rassemble la communauté des archives ouvertes. En tant que co-organisateur de l’événement, le CCSD aura d’ailleurs le plaisir d’accueillir à Lyon en mai 2019 son assemblée générale et le congrès annuel.