Un workflow pour accroître la visibilité et l’impact des logiciels de recherche : le projet SoFAIR

Écrit par Agnès Magron

Le projet SoFAIR vise à simplifier l’identification des logiciels cités dans les publications scientifiques, afin de mieux décrire et valoriser ces outils essentiels au progrès de la recherche. L’ambition est de développer un flux de travail assisté par apprentissage automatique, conçu pour être intégré dans les infrastructures existantes. Le dispositif est expérimenté, à titre de preuve de concept, dans le portail HAL-Inria.

Avez-vous déjà cité un logiciel dans une de vos publications ? Si oui, ce logiciel est-il décrit et archivé ? Si la réponse est “non” ou “je ne sais pas”, vous serez sans aucun doute intéressé par le projet SoFAIR.

Le projet SoFAIR part du constat que beaucoup de logiciels de recherche ne respectent pas ou très partiellement les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable), faute de mécanismes pour les identifier, les relier aux publications et les archiver.

Cité dans le corps du texte d’une publication, voire en note de bas de page, le logiciel utilisé est difficile à repérer ou citer, voire à réutiliser, même s’il est disponible publiquement.

Un workflow pour la gestion du cycle de vie des ressources logicielles

Les équipes du projet SoFAIR visent à fournir et déployer une solution pour gérer le cycle de vie des ressources logicielles, solution qui pourra être intégrée dans les infrastructures ou entrepôts existants.

La solution repose sur l’application GROBID/Softcite que les utilisateurs de HAL connaissent bien puisqu’elle permet déjà d’extraire des fichiers PDF les métadonnées du document comme la référence bibliographique ou le code projet du financement.

Dans le cadre de SoFAIR on s’intéresse à l’identification et l’extraction des mentions de logiciels dans les fichiers PDF déposés dans une archive ouverte institutionnelle comme HAL-Inria.

Cycle de vie des logiciels : 1)Création de la ressource logicielle ; 2)Mention du logiciel dans la publication ; 3) Extraction de la mention du logiciel ; 4)Enrichissement de la description ; 5)Validation par le chercheur ; 6)Enregistrement du logiciel ; 7)Archivage du logiciel

Cycle de vie du logiciel (adaptation de l’illustration Software Assets Lifecycle – SoFAIR Project)

 

Après l’extraction et l’enrichissement, la phase suivante consiste à lever l’ambiguïté et à valider les mentions découvertes. Une étape importante du workflow est donc de faire appel aux auteurs et autrices de la publication pour valider les informations identifiées et enrichies.

Les mentions de logiciels repérées dans une publication déposée sont affichées sur la notice du dépôt. Elles ne sont visibles que pour les auteurs ou autrices de la publication et seulement après connexion.

Une fois validée, cela permet ensuite d’enrichir le dépôt avec les liens explicites vers le(s) logiciel(s). Les mentions de logiciel qui ont été validées sont ensuite visibles par tous.

Si le logiciel est déjà archivé dans Software Heritage et a un identifiant SWHID, il est mentionné dans le dépôt. Dans le cas contraire, le workflow prévoit l’envoi d’une demande d’enregistrement de la ressource à Software Heritage, qui archive définitivement la nouvelle ressource logicielle, lui attribue un identifiant permanent et le notifie à HAL-Inria.

Financé sur projet ANR, SoFAIR réunit des équipes d’Inria, de The Open University, de  Brno University of Technology, de IBL-PAN Institute of Literary Research (Polish Academy of Sciences) et de l’European Bioinformatics Institute.

Le dispositif déployé à partir de mi-décembre dans HAL-Inria sert d’expérimentation pour les entrepôts institutionnels. Le projet prévoit aussi un démonstrateur pour EuropePMC en sciences de la vie et une étude de cas dans les humanités numériques (avec des liens avec les infrastructures DARIAH et EOSC). Ce workflow est dépendant de la disponibilité et de la pérennité d’une base de données externe.

Le développement de ce service s’intègre dans le projet Equipex+ HALiance.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.