Les statistiques de consultation et téléchargement sont à nouveau affichées sur les dépôts, après plusieurs semaines d’interruption nécessaires à la migration d’un volume conséquent de données. Les métriques sont désormais harmonisées avec celles déjà disponibles pour les portails.
820 millions d’événements de consultation stockés
Comment gérer les données de plus d’une centaine de millions de consultations par an tout en produisant des indicateurs fiables aux utilisateurs ? C’est un des défis auquel est confronté le CCSD avec HAL, que ce soit pour des questions de robustesse de l’infrastructure ou des questions de performances.
Le système mis en place à partir de 2018 pour la gestion des événements de consultation est celui d’ ezPaarse, utilisé par les bibliothèques universitaires pour l’analyse du trafic sur les ressources électroniques auxquelles elles sont abonnées.
Mais toutes les données n’étaient pas encore intégrées dans ce système : la migration des données de consultation de 2011 à 2017 (il n’y a pas de données pour les années antérieures) s’est déroulée sur plusieurs semaines l’année dernière, doublant le volume géré jusqu’alors pour atteindre 820 millions de traces (ou logs).
Harmonisation du traitement
Les indicateurs de consultation et téléchargement ne témoignent qu’en partie de l’action intentionnelle d’un lecteur potentiel. Les actions des robots des moteurs de recherche, des applications diverses et variées qui aspirent ou manipulent des contenus en libre accès, alimentent aussi ces indicateurs, voire les gonflent considérablement.
Une partie des traitements réalisés consiste à éliminer des statistiques ces accès générés par des machines, conformément à la norme COUNTER (voir le détail dans un précédent billet).
Pour résumer les différences avec le précédent système :
- meilleure identification des robots,
- analyse des logs (traces) plutôt que des clics dans l’interface,
- prise en compte des “doubles clics” repérés dans les logs selon les préconisations COUNTER,
- les métriques sont calculées par identifiant de document HAL : elles cumulent ainsi toutes les versions d’un dépôt et, en cas de fusion de documents (après dé-doublonnage), les métriques du document fusionné sont ajoutées à celles du dépôt conservé.
Depuis 2019, les données étaient déjà consultables par les administrateurs de portails via l’outil de visualisation Kibana. Maintenant que l’ensemble des données de consultation ont été traitées et analysées, elles sont exploitées dans HAL et affichées sur la notice du dépôt. (A noter que l’indicateur relatif aux mentions sur les réseaux sociaux est fourni par l’application Altmetrics à laquelle le CCSD est abonnée et n’est donc pas produite par le CCSD).
Certains d’entre vous ont repéré une baisse des indicateurs sur leurs dépôts : celle-ci s’explique par le traitement appliqué, plus rigoureux que précédemment, mais plus conforme aux standards actuels.
La prochaine étape des développements consiste à mettre à disposition des outils de visualisation des métriques dans les futures interfaces du compte utilisateur.
Bonsoir,
Merci pour ce billet.
On ne voit pas d’évènement de consultation antérieur à 2019 dans halec Kibana. Les évènements de consultation 2011-2018 seront-ils chargés un jour dans halec Kibana?
Merci!
Bonjour,
Les données des événements de consultation depuis 2011 ne sont présentes que dans ElasticSearch. Pour des questions de gestion de volumes, la granularité de l’enrichissement effectué lors du traitement décrit dans le billet n’est pas aussi fine.
Les données enrichies ne sont manipulables dans le tableau de bord « Consultations » mis à disposition pour les administrateurs de portails que pour les 2 dernières années civiles et l’année en cours.
Bonjour
Pour connaitre les statistiques de téléchargement et de consultation de ma thèse dans HAL comment procéder?
Bonjour,
En consultant la notice du dépôt, les métriques sont affichées sur la droite de l’écran, en-dessous du pavé contenant les icônes de partage sur les réseaux sociaux.
Voir par ex : https://tel.archives-ouvertes.fr/tel-01699829