Bad bots, good bots : filtrer les robots pour réduire leurs impacts

Écrit par Agnès Magron

L’année 2025 a confirmé l’augmentation massive du trafic de robots déjà observée en 2024. Les infrastructures de HAL, puis d’Episciences, ont été impactées par des sollicitations émanant de robots particulièrement agressifs. Face à cette situation, le CCSD a mis en place des mesures de filtrage afin de réduire l’impact de ces robots, tout en veillant à ne pas pénaliser les utilisateurs légitimes ni les robots utiles (indexation scientifique, archivage, services partenaires, etc.). L’enjeu est double : préserver la disponibilité et les performances des services en évitant la saturation des ressources et maintenir l’ouverture de l’infrastructure, essentielle à la diffusion et à la visibilité des contenus.

L’activité des robots  a toujours été intense sur HAL : moteurs de recherche, agrégateurs de contenus ou outils d’indexation, ils jouent un rôle essentiel pour la découverte et la dissémination des contenus.

Cependant, comme de nombreuses autres infrastructures ouvertes (par exemple, Wikipedia, arXiv, RePec ou le DOAJ), HAL observe depuis quelques années une évolution préoccupante : le trafic généré par les robots a fortement augmenté, et surtout, leurs comportements sont devenus plus agressifs. On qualifie de « robots agressifs » ceux qui ne respectent pas les règles habituelles des web crawlers : fréquence excessive de requêtes, absence d’identification claire, ou non respect des consignes d’exploration (mentionnées dans le fichier robots.txt). Qu’ils soient liés ou non à des applications d’intelligence artificielle, ces robots submergent les serveurs de requêtes, consomment des ressources énergétiques et dégradent l’expérience des utilisateurs légitimes en ralentissant les temps de réponse. Cela se traduit, par exemple,  par le message “Too Many Requests” après une recherche. On constate aussi des alertes sur les températures des machines en cas de pics.

Ces pratiques nécessitent une vigilance accrue et mobilisent l’équipe chargée de la gestion de l’infrastructure. Le cœur du problème réside dans l’impossibilité de connaître les intentions d’un robot. Il s’agit donc d’identifier les robots aux comportements agressifs, d’élaborer des stratégies pour diminuer au mieux l’impact de leur activité, puis de les tester et les mettre en œuvre.

Un équilibre à trouver entre performance, accessibilité et satisfaction utilisateur

Il s’agit aussi de maintenir un équilibre complexe entre performance, accessibilité et satisfaction des utilisateurs — qu’ils soient humains ou machines.

Sans intervention, on risque des dysfonctionnements et un gaspillage des ressources en énergie et en puissance de calcul. A l’inverse, si on met en place des mesures trop strictes, comme des vérifications systématiques pour distinguer les humains des robots (CAPTCHA), on peut créer de la frustration du côté des utilisateurs légitimes.

Le trafic des robots agressifs affecte aussi les statistiques de consultation. L’infrastructure comprend 16 machines entièrement dédiées au stockage des logs des consultations. Le volume enregistré en 2025 est deux fois plus important qu’en 2024. Ces machines fonctionnant en permanence, une question se pose : comment rationaliser leur utilisation ? Si on retire les logs des robots, cela économise de l’espace machine mais cela fait baisser les chiffres des consultations, ce qui peut créer, là aussi, de la frustration et de l’insatisfaction. Mais d’un autre côté, si la plupart des logs sont commis par des robots, les chiffres des consultations sont-ils significatifs ?

Le travail de l’équipe chargée de l’infrastructure s’est principalement concentré sur la plateforme HAProxy, mise en place dans le cadre du projet Equipex+ HALiance. Elle agit comme un agent intermédiaire intelligent entre les utilisateurs (ou les robots) et les serveurs qui hébergent les applications. Elle peut être configurée pour détecter les requêtes anormalement fréquentes (ex. : un robot qui envoie 100 requêtes/seconde) et les bloquer ou les ralentir. Pour donner l’exemple de la journée du mardi 17 février,  sur un total de 17 millions de requêtes, ce sont plus de 4 millions de requêtes de robots qui ont été interceptées grâce au mécanisme mis en place, généralement des requêtes de recherche très coûteuses pour l’indexeur de HAL. Les filtres mis en place permettent ainsi d’améliorer globalement les temps de réponse : on obtient des temps de chargement de pages de moins d’une seconde.

Dealing With Bots Task Group

L’échange et la mutualisation des informations avec d’autres infrastructures constituent un levier essentiel pour faire progresser les connaissances et les pratiques. Depuis 2025, le CCSD  participe au Dealing With Bots Task Group, groupe de travail créé par la Confederation of open access repositories (COAR) à la suite d’une enquête, dans le but d’étudier l’augmentation soudaine du trafic des robots malveillants et leurs impacts sur les entrepôts.

Le premier livrable de ces travaux est un site web, ouvert en janvier,  qui met à disposition un ensemble de ressources à destination des gestionnaires d’entrepôts pour les aider à définir des stratégies adaptées à leur contexte.

Une conclusion importante des travaux menés est qu’il n’existe pas de solution miracle. Les entrepôts doivent trouver un équilibre délicat entre la protection de leurs opérations contre le trafic provenant d’acteurs peu scrupuleux et le maintien de leur mission fondamentale qui consiste à fournir un accès ouvert aux utilisateurs et aux machines légitimes.

En 2026, la stratégie pour HAL est de tester Anubis, un utilitaire open source déjà mis en place par d’autres plateformes, et d’optimiser la séparation du trafic des robots identifiés du trafic considéré comme légitime.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.