Le domaine de la recherche connaît une transformation profonde sous l’impulsion de l’intelligence artificielle (IA). Ces technologies, désormais largement démocratisées, bouleversent les méthodes de recherche, la gestion des données, et même la rédaction des travaux scientifiques. Aujourd’hui, des tâches nécessitant auparavant plusieurs semaines peuvent être accomplies en quelques heures grâce à des outils d’IA performants, révélant ainsi leur impact révolutionnaire.
L’IA offre de nombreux bénéfices : génération de nouvelles idées, analyse de données plus rapide, réduction des erreurs humaines et amélioration de la précision des résultats. Ces avancées stimulent à la fois la productivité et la fiabilité dans le monde académique.
C’est dans ce contexte qu’a eu lieu la journée scientifique organisée dans le cadre de la quatrième édition de l’Assemblée des partenaires de HAL, en 2024. Cette journée a exploré les usages variés de l’IA dans les domaines de la recherche, de la conservation et de la publication scientifique, tout en questionnant les implications éthiques et juridiques de ces pratiques.
Cette journée a été possible grâce à l’engagement d’un comité scientifique constitué pour l’occasion, avec des personnalités reconnues dans leurs domaines :
- Férédéric Bousefsaf, maître de conférences à l’Université de Lorraine et ambassadeur HAL
- Cécile Méadel, professeure et vice-présidente numérique à l’Université Paris-Panthéon-Assas
- Claire Nédellec, directrice de recherche en informatique à INRAE et Université Paris-Saclay
- Laurent Romary, directeur de recherche à Inria
La journée a été enregistrée et vous pouvez découvrir ci-dessous la partie introductive et la première session :
Les autres vidéos (qui sont désormais sous-titrées) sont disponibles sur notre chaine Canal U.
Différents cas d’usage de l’IA
En introduction à cette journée d’étude, quatre interventions flash ont permis d’explorer différents usages de l’intelligence artificielle. Chaque présentation a mis en lumière un cas d’usage spécifique, illustrant comment l’IA peut transformer les pratiques de recherche et d’organisation en bibliothèque. De l’analyse de données massives à l’optimisation des ressources documentaires, ces exemples concrets permettront d’appréhender la diversité des applications et les bénéfices qu’elles apportent au quotidien des professionnels.
Marie-Sophie Bercegeay, experte en ressources électroniques à la Bibliothèque royale de Belgique, a présenté un projet de catalogage automatisé : grâce à une simple capture de la page de titre, l’IA permet d’intégrer les références de 3 millions de livres dans le catalogue en ligne de la bibliothèque.
Cyril Labbé, maître de conférences à l’Université Grenoble Alpes, a présenté SciDetect, un outil capable de détecter les articles scientifiques générés automatiquement par intelligence artificielle. Il s’appuie sur l’analyse des « phrases torturées », des paraphrases incohérentes, (ex. : « intelligence artificielle » devient « conscience contrefaite »), caractéristiques des textes générés automatiquement.
Géraldine Geoffroy, fondatrice de SmartBibl.IA Solutions, a exposé son travail sur l’indexation disciplinaire automatisée des publications scientifiques. Ces méthodes ont permis de générer des indicateurs pour un baromètre local d’ouverture des publications avant même le lancement du Baromètre national de la Science Ouverte.
Sophie Schbath, directrice de recherche à INRAE, a présenté Omnicrobe, une base de données libre d’accès qui centralise des informations structurées sur les habitats, les phénotypes et les usages des bactéries. En s’appuyant sur le traitement automatique du langage, Omnicrobe extrait et normalise des données issues de sources textuelles variées, permettant d’identifier les relations entre les habitats des bactéries et leurs usages potentiels.
À partir des cas d’usage précédemment présentés, Pierre Senellart, professeur des Universités en informatique à l’École normale supérieure a exploré les grands principes de différents modèles d’intelligence artificielle., a abordé les fondements théoriques qui sous-tendent ces technologies, leur fonctionnement, leurs capacités, ainsi que leurs limitations.
Table Ronde
Cette table ronde a réuni quatre expert·es pour débattre des enjeux éthiques et juridiques posés par l’intelligence artificielle dans les domaines de la recherche et des bibliothèques. En effet, l’usage de l’IA suscite nécessairement de nombreuses questions et dilemmes relatifs aux droits, à l’intégrité scientifique, à la responsabilité et plus largement aux impacts de son utilisation.
Si l’IA reste un outil avantageux à plus d’un titre pour, il est crucial de considérer les risques potentiels de violation des droits d’auteur lors de l’utilisation de textes générés par l’IA. À ce jour, les outils d’IA ne répondent pas aux normes de paternité, car ils ne peuvent être légalement tenus responsables de la qualité et de la validité des informations qu’ils produisent. Ce qui pose par ailleurs des questions sur la justesse des informations (re)générées.
Par conséquent, l’usage généralisé de l’IA impose une réflexion sur de nouveaux cadres juridiques et éthiques, qui d’une part protégerait les productions des chercheurs, tout en les gardant de commettre de potentiels mésusages.
- Mélanie Clément-Fontaine, professeure des Universités en droit privé à l’Université de Versailles Saint-Quentin-en-Yvelines
- Liane Huttner, maîtresse de conférences, droit privé et sciences criminelles à l’Université Paris-Saclay
- Cyril Labbé, maître de conférences en sciences de l’informatique à l’Université Grenoble Alpes
- Catherine Tessier, référente intégrité scientifique et éthique de la recherche à l’Office National d’Études et de Recherches Aérospatiales
Usage de l’IA pour CORE-GPT et HAL
L’après-midi a été consacrée à l’exploration de l’utilisation de l’IA dans des structures telles que CORE-GPT, ainsi qu’à l’analyse des applications concrètes de l’IA au sein de HAL.
Les participant·es à cette journée scientifique ont eu le privilège d’accueillir David Pride, chercheur associé et membre de l’équipe CORE, venu de Londres. Il a présenté comment CORE GPT facilite l’automatisation de la recherche d’articles, la synthèse de travaux complexes, et la génération de réponses pertinentes à partir d’une vaste base de connaissances scientifiques. En effet, le projet CORE tend à indexer l’ensemble des travaux de recherche en accès libre à l’échelle mondiale et offrir un accès illimité à tous.
Pour clôturer ces deux journées d’Assemblée, Nathalie Fargier et Yannick Barborini ont présenté l’usage de l’intelligence artificielle dans le cadre de la plateforme HAL. Yannick Barborini a notamment mis en lumière l’intégration de GROBID, un outil central qui automatise l’extraction et la structuration des données issues des PDF déposés. Capable de traiter aussi bien des métadonnées classiques (titre, auteurs, affiliations, DOI, etc.) que des structures textuelles complexes (paragraphes, références, légendes, etc.), GROBID améliore la qualité et la cohérence des données dans HAL. Il simplifie ainsi la tâche des déposants tout en renforçant l’interopérabilité avec d’autres systèmes.