Refonte du module statistiques : où en est-on ?

HAL

Écrit par Agnès Magron

Début 2018, l’équipe du CCSD a ouvert un chantier de refonte du module statistiques : cela englobe l’amélioration des performances, celle de la fiabilité des indicateurs, l’ergonomie de l’interface d’interrogation et l’exploitation des résultats.

Fiabilité et performances

La priorité donnée à la fiabilité a déjà fait l’objet d’un billet sur la détection des robots : éliminer des statistiques les accès générés par les robots constitue un enjeu de taille pour obtenir des chiffres qui reflètent les consultations humaines des ressources disponibles sur HAL. Les robots, s’ils ne sont pas détectés, gonflent en effet les chiffres de consultation. Ils étaient déjà filtrés à partir d’une liste pré-établie de robots connus fournie par la norme COUNTER. Un process de détection dynamique basée sur les comportements a été développé en collaboration avec EZPaarse pour affiner la sélection des logs à prendre en compte. Un autre enjeu, non moins décisif, est celui de la taille des données traitées. Près de 2M de jeux de métadonnées extraits des documents de HAL et presque 70M d’évènements de consultation sont indexés pour la version BETA. Trois serveurs sont dores et déjà dédiés à cette tâche et nous étudions la possibilité d’en ajouter de nouveaux pour assurer la montée en charge.

Version BETA de l’interface pour les administrateurs

En ce début d’année, nous mettons à la disposition des administrateurs de portails une version BETA de l’interface pour la visualisation et l’exploitation des indicateurs concernant leur établissement. Un recensement des besoins a été effectué en mars 2018 grâce à une enquête dont les résultats ont été publiés dans un billet. C’est à partir des résultats de cette enquête que les 2 tableaux de bord qui composent l’interface administrateur ont été élaborés :

  • un tableau de bord pour les statistiques d’usage : évolution des dépôts, répartition dépôts avec fichier/annexe, etc.
  • un second pour les statistiques de consultations : nombre de consultations, de téléchargements, provenance géographique des consultations, etc.

L’outil de visualisation utilisé est Kibana. Pourquoi cet outil ? Après élimination des hits de consultation en provenance des robots, les logs de consultation de HAL sont importés dans la base de données ElasticSearch. Les données sont anonymisées, enrichies avec les métadonnées des dépôts (identifiant, tampon, domaines, etc.). Kibana est l’outil développé par ElasticSearch qui permet de visualiser les données sous forme de graphiques. Nous utilisons le même outil pour les statistiques d’usage.

Nous avons adressé un mail à tous les comptes ayant les droits administrateur contenant  l’url permettant d’accéder à l’interface et nous attendons leur avis sur la composition des tableaux de bord mis à leur disposition.