Objectifs / Composantes du projet / Organisation du projet

Objectifs du projet

L’objectif du projet Visa TM est de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, en offrant des services à même de contribuer à un effet catalyseur de la science : transfert de technologies, innovation, réutilisation des données et résultats. L’objectif de l’infrastructure est de faciliter l’accès aux contenus, apporter des solutions technologiques et des traitements adaptés aux besoins, ainsi qu’un accompagnement humain.

d’après C. Nédellec

Financé par le Ministère de la Recherche et de l’Innovation, issu de la BSN (Bibliothèque scientifique Numérique) et aujourd’hui porté par le CoSO (Comité pour la Science Ouverte), le projet Visa TM rassemble dans un partenariat trois institutions mettant en synergie leurs complémentarités : l’INRA-MaIAGE et DIST, partenaires du projet H2020 d’infrastructure de fouille de textes OpenMinTeD, le CNRS-Inist, porteur de l’infrastructure ISTEX et le LIRMM– Université de Montpellier, porteur du projet AgroPortal.

Ce projet s’inscrit dans le mouvement de développement d’une Science Ouverte tendant à la mise à disposition des bibliothèques numériques et des ressources sémantiques et à l’intégration de données de sources diverses, dont textuelles. Il s’appuie sur les progrès récents et la maturité des technologies de traitement nécessaires à la fouille de textes et du web sémantique ainsi que sur l’efficacité des moyens de calcul pour amener cette fouille de textes au cœur de l’activité du chercheur.

Les trois composantes du projet

OpenMinTeD

OpenMinTeD est une nouvelle infrastructure européenne de TDM (Text and Data mining) à destination de publics divers: spécialistes du TDM, développeurs non spécialistes et intégrateurs, utilisateurs chercheurs. OpenMinTeD met à disposition un environnement complet en accès ouvert incluant la composition de corpus de textes à traiter via l’interconnexion avec des bibliothèques numériques , le choix d’une application de TDM sur le corpus choisi, son exécution sur un cloud et le téléchargement des résultats. Elle permet le développement rapide de nouvelles solutions de TDM adaptées au besoin, grâce à l’assemblage de composants réutilisables, combinables, interopérables et adaptables à différentes tâches.  Elle offre pour cela une bibliothèque de composants TDM et la possibilité de composition de nouveaux workflows (chaînes de traitement). Via ses APIs, OpenMinTeD se connecte de façon standardisée à d’autres infrastructures de données, en particulier européennes telles que OpenAIRE ou CORE ou de traitement. Le projet Visa TM a pour objectif d’étendre à des interconnexions avec les plateformes documentaire ISTEX et portail d’ontologie, AgroPortal.

ISTEX

Les composants de fouille de textes traitent des ressources textuelles de toutes origines.  La composition de corpus adaptés aux thématiques des chercheurs est un verrou. OpenMinTeD facilite cette étape en proposant une interface standard avec des bibliothèques externes. ISTEX est une bibliothèque numérique de grande taille (de l’ordre de 21 millions d’objets) regroupant les archives scientifiques acquises sous licence nationale dans une plateforme les rendant facilement accessibles, exploitables et interrogeables. Le projet Visa TM vise à intégrer ISTEX comme source de contenu de la plateforme OpenMinTeD. Cette interconnexion réalisée au travers d’une API permettra à l’utilisateur de constituer un corpus par des requêtes sans quitter la plateforme et de l’enregistrer dans le catalogue. Il sera décrit par des métadonnées en format spécifique (OMTD-SHARE) et partagé ou non. L’interconnexion gèrera parallèlement les droits d’accès à ISTEX qui sont limités à l’enseignement supérieur français.

AgroPortal

De même que les ressources textuelles, les ressources sémantiques (thésaurus, terminologies, vocabulaires, ontologies) sont essentielles aux chaînes de traitement sémantique des outils de fouille de textes. AgroPortal est un portail de ressources sémantiques, décrites dans des formats standard tels que SKOS ou OWL, pour l’agronomie, les plantes, la nutrition et la biodiversité. Ce portail héberge une centaine de ressources et offre des services tels que la recherche, la navigation, l’alignement et l’annotation de textes. Le projet Visa TM vise à développer un composant d’interconnexion implémenté sous forme de web service REST et reposant sur la technologie partagée de portails d’ontologies développée à Stanford dans le cadre du NCBO (National Center for Biomedical Ontology) BioPortal. Le format de métadonnées utilisé pour décrire les ontologies enregistrées dans le catalogue d’OpenMinTeD est là aussi OMTD-SHARE.

Organisation du projet

Mettant en synergie les intérêts et les complémentarités des différents partenaires impliqués, le projet est organisé en trois volets complémentaires :

  • Le volet « étude » a pour objectif de dresser un état des lieux des acteurs (recherche et service), de consolider l’analyse des besoins et de proposer les recommandations et la feuille de route pour la mise en place du service.
  • Le volet « conception » vise à démontrer la faisabilité et l’intérêt de l’interconnexion entre la plateforme de TDM OpenMinTeD, les bibliothèques numériques (ISTEX) et les ressources sémantiques (AgroPortal).
  • Le volet « application pilote » doit illustrer la facilité de déploiement de ce service et la qualité des résultats obtenus, en réponse à des besoins emblématiques.