Statistiques de consultation : simplification du filtrage des robots

Écrit par Benoît Legouy

Le CCSD fait le constat qu’il est de plus en plus complexe d’identifier les traces de consultation de HAL par les robots et web crawlers. Le filtre jusqu’à présent mis en place qui éliminait les traces au-delà de 100 consultations/jour pour une même machine ne permet pas de garantir une élimination fiable des robots. A partir de 2025, les données de consultation ne prendront plus en compte ce seuil.
La production des statistiques de HAL depuis 2019

En 2019, le CCSD a lancé sa plateforme Kibana pour permettre aux équipes en charge des portails d’interroger une base de données, constituée spécifiquement à cette fin, sur les documents de HAL et leurs consultations. Les besoins remontés lors de l’enquête qui avait précédé le lancement concernaient dans une large mesure l’enquête ESGBU renseignée tous les ans par un grand nombre d’administrateurs et administratrices de portails.

De premiers tableaux de bords avaient été mis en place pour donner les principaux indicateurs généralistes puis, dans un second temps, pour répondre aux questions spécifiques de l’ESGBU. Rapidement, un groupe de travail constitué conjointement par le bureau de CasuHAL et le CCSD a travaillé sur ces tableaux de bord qui sont à présent gérés par CasuHAL.

Pour simplifier l’accès à ces ressources et en faire profiter l’ensemble des utilisateurs et utilisatrices, de nouvelles bases de données simplifiées ont été constituées et ont permis l’intégration des chiffres de consultations directement dans l’interface de HAL. Les métriques des documents sont apparues lors de la mise à jour de l’interface fin 2022 puis des tableaux de bord accessibles aux déposant.es, gestionnaires de collection et aux équipes en charge des portails.

Le traitement des robots dans les statistiques de HAL

Depuis le lancement de la plateforme Kibana de HAL, les statistiques sont extraites des journaux(ou logs) des serveurs au moyen du logiciel Ezpaarse, développé au sein de l’Inist. Ce logiciel permet l’exclusion des robots qui figurent sur la liste COUNTER : les lignes de log concernées ne figurent pas dans les bases de données de statistiques de HAL.

En collaboration avec l’équipe de l’Inist, le CCSD a, de plus, expérimenté une fonctionnalité d’Ezpaarse pour permettre de filtrer les robots non connus de la liste COUNTER. Cette fonctionnalité, développée à la demande du CCSD, permettait de marquer les lignes de log laissées par des machines qui ont consulté plus de 100 documents au cours d’une seule journée. Ces lignes sont présentes dans la base des données mais il est possible de les exclure des chiffres affichés au moyen d’un filtre.

Avec le recul de plusieurs années, nous constatons que cette fonctionnalité n’a pas toujours permis d’exclure les machines visées. Plus important, nous avons constaté une évolution de la manière dont les robots sont présents sur HAL, et parfois de manière malveillante. En particulier, les “web crawlers” ont évolué et intègrent généralement des fonctionnalités pour contourner les nombres maximum de visites quotidiennes, souvent en utilisant un plus grand nombre de machines. D’autres techniques permettent également de contourner l’identification d’une machine au moyen de son adresse ip.

Ces constats nous amènent à conclure  que le marquage de certaines lignes de log non seulement manquait de précision mais était trompeur en laissant penser que les chiffres filtrés ne contenaient pas de consultations faites par des robots. Plusieurs administrateurs et administratrices se sont ainsi étonné.es de la forte augmentation des chiffres de consultation en 2024 et ce, alors que les techniques utilisées n’ont pas changé. Nos vérifications confirment une augmentation réelle de la fréquentation de HAL et des portails, mais avec nos moyens actuels, nous ne pouvons pas estimer la part des robots, tout comme ce n’était déjà pas possible en 2023 et les années précédentes, malgré les dispositifs en place.

Ce qui change à partir de  2025

Prenant acte des problèmes posés par ce filtre dysfonctionnel et ne disposant pas des ressources nécessaires à son amélioration, nous avons décidé de supprimer le marquage au-delà du seuil de 100 visites dans la même journée dans la base de statistiques. Conformément aux standards observés, notamment sur la plupart des autres plateformes, nous n’exclurons que les robots figurant sur la liste COUNTER. Cela s’ajoute aux filtres ad hoc mis en place en amont par le service d’administration système du CCSD qui est en première ligne pour limiter les usages (malveillants ou non) qui entraînent des surcharges de l’infrastructure de HAL.

Par souci de cohérence, les chiffres 2024 actuellement présents sur l’interface ne seront pas modifiés et sont donc pleinement comparables avec les chiffres des années précédentes, y compris pour l’enquête ESGBU 2024, puisque fournis avec les mêmes techniques. Les tableaux de bord Kibana ne seront pas modifiés mais le filtre portant sur le marquage des “robots” n’aura plus d’effet à partir des données de 2025.

La maintenance de la plateforme de statistique de HAL nécessite des opérations tout au long de l’année, elle est rendue parfois difficile par le volume important des données manipulées. La mise en place de mécanismes visant à discriminer les visites faites par des utilisateurs humains des autres demande des ressources importantes que, à notre connaissance, peu de plateformes mettent en œuvre. Ainsi, et comme nous l’avons souvent fait observer, les données de consultation d’un document ou d’une collection ne doivent pas être comprises comme le reflet transparent de l’intérêt d’utilisateurs humains.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.