Compte rendu de l’atelier : Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services

Objectif

Réfléchir et suggérer des idées, identifier les freins et les modes opératoires pour activer la valorisation et faciliter le transfert des produits de la recherche en fouille de textes grâce à une e-infrastructure dédiée.

Modalité « World café »

La salle comporte trois tables, chacune est dédiée à un sous-thème. Les participants sont divisés en trois groupes, et chaque groupe visite successivement les trois tables. Chaque table a un animateur/secrétaire volontaire pour effectuer la transition et la synthèse des réflexions des groupes.

Thèmes

« Institutions » : Opportunités et obstacles pour la mise en place d’une e-infrastructure pour la fouille de textes.

« Collaborations » : Une e-infrastructure pour le transfert et la valorisation des produits de la recherche en fouille de textes.

« Technique » : E-infrastructure, réflexions technologiques.

Restitution du thème « Institutions » par Laurent Schmitt de l’INIST

Questions : Opportunités et obstacles pour la mise en place d’une e-infrastructure pour la fouille de textes

Obstacles et opportunités institutionnelles pour contribuer à l’e-infrastructures (évaluation, financement, mutualisation, formation).
Pérennisation et soutien long terme.
Valoriser au mieux les avantages de l’écosystème ESR (Enseignement Supérieur de la Recherche) français tout en atténuant ses inconvénients.
Comment faire accepter que les e-infrastructures sont comme les autres infrastructures de recherche et doivent être soutenues sur du long terme avec des investissements réguliers ?
Qui pour piloter l’e-infrastructure de fouille de textes en France ?

Il s’agissait dans cette réflexion de se placer du point de vue de l’institution. Nous avons choisi de nous imaginer “chargé de mission TDM (Text and Data Mining) au MESRI (Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation). Lors de la première session (premier tiers des participants), la nécessité de disposer d’une structure permettant d’accompagner la communauté, de former et de signaler les outils disponibles est très vite apparue. Cette structure pourrait être, un TGIR (Très Grande Infrastructure de Recherche), un réseau inter-organisme, un Equipex, une structure interne à l’INIST ou à la BNF ou enfin un centre TDM à l’instar des centres pour l’Intelligence Artificielle. Le réseau présente une structure non doté de moyens propres, une structure interne à un organisme présente l’inconvénient de ne dépendre que d’une seule tutelle, un Equipex nous ferait retomber dans une situation non pérenne (budget uniquement pour la durée du projet). L’idée qui a donc naturellement émergée est donc celle d’un TGIR (Très Grande Infrastructure de Recherche) TDM. Celui-ci serait directement sous la tutelle du MESRI, au service de tout l’Enseignement Supérieur de la Recherche est aurait comme mission principale d’accompagner les chercheurs vers le TDM en offrant une base de donnée d’outils disponibles, pour quel besoin (extraction terminologique, reconnaissance d’entité nommées, classification, ..), avec quelle qualité (résultats aux campagne d’évaluation) et quelle robustesse (nombre de document traitées, langue, disciplines, …). Le TGIR pourrait aussi subventionner les équipes qui souhaitent justement participer à des campagne d’évaluation, voire même en réaliser si elles n’existent pas déjà.

La deuxième session (deuxième tiers de l’assemblée) ont repris les réflexions déjà menées en se posant de nouveau la question de la structure :

Une structure au niveau européen :

Ajoute de la complexité en terme de langues et du nombre d’outils
Ne garantie pas la pérennité de l’action au delà du projet européen
Une intégration dans CLARIN (European Research Infrastructure for Language Resources and Technology) a été évoqué mais sans suite…

Une autre structure de type de celles évoquées ci-dessus : Pas de pérennité ou de moyens ou visibilité nationale (Cf; plus haut)

Le troisième groupe à passer sur ce thème n’a pas amené beaucoup plus d’information nouvelle. “Tout a été dit” (verbatim). Ils semblaient néanmoins tous en phase avec ce qui avait été exprimé précédemment.

Restitution du thème « Collaborations » par Clément Jonquet (LIRMM)

Questions : Une e-infrastructure pour le transfert et la valorisation des produits de la recherche en fouille de textes

Comment faire connaître les services de l’e-infrastructure auprès des différents utilisateurs ?
Comment encourager les acteurs de la fouille de textes à contribuer à l’e-infrastructure avec des composants et applications qui manquent ?
Comment utiliser l’e-infrastructure pour créer de nouvelles collaborations ?
Comment faire en sorte que l’e-infrastructure soit un moyen (une opportunité) pour passer d’un POC (proof of concept) à un niveau de TRL (Technology Readiness Level) plus avancé pour une des ressources/logiciels développés par les chercheurs en fouille de textes ?
Rapprochement avec des communautés utilisatrices (SdV/médic, SHS/juridiques)
Comment l’e-infrastructure peut aussi être un tremplin (via un changement d’échelle) vers de la valorisation (industrielle) de résultats de recherche en fouille de textes ?

Dans ce groupe, les participants ont proposé et discuté différents aspects liés à l’adoption d’une e-infrastructure de TDM. Sur chacunes des questions les participants se sont exprimés. En synthèse quelques éléments de réponses :

Tous les moyens semblent bons pour faire connaitre les services d’une e-infrastructure : médias, enseignements, support/documentation, ateliers. Le tout à moduler en fonction des utilisateurs auprès desquels il faut la faire connaître. Le fait de passer un seuil d’adoption critique, en impliquant les bonnes personnes dès le début semble important.
Beaucoup de pro-activité semble nécessaire pour encourager les gens à adopter. Il faut des ambassadeurs. Il faut pouvoir démontrer qu’on gagne du temps sur du moyen/long terme. Ne pas se louper sur la qualité au départ, sinon on perdra les gens pour longtemps.
Faire des benchmarks/tâches d’évaluation autour de l’e-infrastructure, de façon à ce que les chercheurs y trouvent un contexte pour se comparer aux autres résultats et évaluer leurs approches et obtenir du feedback sur leur outils. Pourquoi ne pas prévoir des appels à projets “pour utiliser l’e-infra”. Il faut arriver à créer un “forum”, faire en sorte que c’est la que les gens discutent.
L’e-infra pourrait permettre de passer un outil de “POC à prod” (de Proof of Concept à Production) plus rapidement et facilement. La clé semble de pouvoir reproduire des résultats scientifiques dans un autre contexte avec d’autres données (science reproductible).
Il faut faire se polliniser les domaines: utiliser ceux qui sont en avance et qui marchent bien pour montrer aux autres ce qu’on peut faire et les embarquer. Il faut aussi montrer la généricité des outils; en cela l’e-infrastructure peut être utile.
Là encore, la possibilité d’associer l’e-infrastructure à des mécanismes de financement est ressortie. Les mécanismes de labellisation peuvent être aussi utilisés. Il faut aussi permettre de répondre à des questions “grand public” pour pouvoir anticiper des valorisations possibles au-delà de l’e-infrastructure.

Restitution du thème « Technique » par Tri Duc Tran (Editions Lefebvre Sarrut)

Questions : E-infrastructure, réflexions technologiques

Quelles technologies pourraient faciliter le transfert ? Langages, bibliothèques, formats couramment utilisés ?
L’adoption, la maintenance, le support long terme.
Rapprochement avec des communautés de soutien (stats, dév log, HPC).
Quelles technologies pourraient faciliter le transfert ? Langages, bibliothèques, formats couramment utilisés ?

Les aspects technologiques de la plateforme :

Prendre en compte les données en entrant en proposant des outils permettant de crawler/moissonner des corpus, de les transformer, de les partager, de les nettoyer
Fournir des librairies, des outils à l’état de l’art en Machine Learning
Donner la possibilité d’utiliser les modèles existants : prendre en compte les standards des formats en entrant (données pour l’apprentissage) des outils de Machine Learning et des formats en sortie (les modèles)
Tenir compte de l’importance de la documentation pour la réutilisation et la maintenance des algorithmes

Le volet expérience utilisateur est primordial pour un transfert optimal et doit être pris en compte afin d’identifier l’utilisateur (expertise, domaine, besoin) afin de fournir des parcours adaptés pour une prise en main simple et rapide. Il faut faire l’abstraction de la technologie et se focaliser sur le résultat (le besoin).

L’adoption, la maintenance, le support long terme.

Pour supporter et faciliter cette problématique, il faudrait incorporer les axes suivants :

Communication : événements, animations, on-line communication, vulgarisation
Formation : webinar, tutoriaux (articles, vidéos), fournir un bac à sable/démonstrateur
Espace de collaboration et d’archivage des données, modèles, résultats

Il faudrait intégrer ces points lors de la gestion de projet TDM.

Rapprochement avec des communautés de soutien (stats, dévlog, HPC).

L’ouverture vers les autres communautés passe par :

l’organisation des challenges, hackathon : fournir des moyens permettant de tester/déployer rapidement des modèles avec des jeux de données adaptées afin de les améliorer
La mise en place des lieux d’échanges on-line (wiki, blog, forum …)
La possibilité de déployer rapidement vers des infrastructures personnelles
La mise en place des outils permettant de visualiser rapidement les données, les résultats des modèles.