Et si on parlait des statistiques de consultation de vos dépôts ?

Actualités
HAL

Écrit par Agnès Magron

Les statistiques de consultation et téléchargement sont à nouveau affichées sur les dépôts, après plusieurs semaines d’interruption nécessaires à la migration d’un volume conséquent de données. Les métriques sont désormais harmonisées avec celles déjà disponibles pour les portails.

820 millions d’événements de consultation stockés

Comment gérer les données de plus d’une centaine de millions de consultations par an tout en produisant des indicateurs fiables aux utilisateurs ? C’est un des défis auquel est confronté le CCSD avec HAL, que ce soit pour des questions de robustesse de l’infrastructure ou des questions de performances.

Le système mis en place à partir de  2018 pour la gestion des événements de consultation est celui d’ ezPaarse, utilisé par les bibliothèques universitaires pour l’analyse  du trafic sur les ressources  électroniques auxquelles elles sont abonnées.

Mais toutes les données n’étaient pas encore intégrées dans ce système : la migration des données de consultation de 2011 à 2017 (il n’y a pas de données pour les années antérieures) s’est déroulée sur plusieurs semaines l’année dernière, doublant le volume géré jusqu’alors pour atteindre 820 millions de traces (ou logs).

Harmonisation du traitement

Les indicateurs de consultation et téléchargement ne témoignent qu’en partie de l’action intentionnelle d’un lecteur potentiel. Les actions des robots des moteurs de recherche, des applications diverses et variées qui aspirent ou manipulent des contenus en libre accès,  alimentent aussi ces indicateurs, voire les gonflent considérablement.

Une partie des traitements réalisés consiste à éliminer des statistiques ces accès générés par des machines, conformément à la norme COUNTER (voir le détail dans un précédent  billet).

Pour résumer les différences avec le précédent système :

  • meilleure identification des robots,
  • analyse des logs (traces) plutôt que des clics dans l’interface,
  • prise en compte des “doubles clics” repérés dans les logs selon les préconisations COUNTER,
  • les métriques sont calculées par identifiant de document HAL : elles cumulent ainsi  toutes les versions d’un dépôt et, en cas de fusion de documents (après dé-doublonnage), les métriques du document fusionné sont ajoutées à celles du dépôt  conservé.

Depuis 2019, les données étaient déjà consultables par les administrateurs de portails via l’outil de visualisation Kibana.  Maintenant que l’ensemble des données de consultation ont été traitées et analysées, elles sont exploitées dans HAL et affichées sur la notice du dépôt. (A noter que l’indicateur relatif aux mentions sur les réseaux sociaux est fourni par l’application Altmetrics à laquelle le CCSD est abonnée et n’est donc pas produite par le CCSD).

Certains d’entre vous ont repéré une baisse des indicateurs sur leurs dépôts : celle-ci s’explique par le traitement appliqué, plus rigoureux que précédemment, mais plus conforme aux standards actuels.

La prochaine étape des développements consiste à mettre à disposition des outils de visualisation des métriques dans les futures interfaces du compte utilisateur.