Restitution par Joanna Janik (Chargée de projets formations IST à la DIST-CNRS et copilote du Collège Compétences et formations du Comité pour la Science Ouverte)

La fouille de textes et de données ne constitue pas seulement un défi technologique ou juridique mais également un défi humain pour amener les différents acteurs qui y participent à acquérir l’ensemble des compétences nécessaires à cette activité. L’objectif de cet atelier était donc de dresser un constat sur les compétences actuelles, de réfléchir aux manques possibles ainsi qu’aux moyens d’y répondre, en s’appuyant en particulier sur le levier de la formation.

N’étant pas trop nombreux autour de la table, nous avons considéré qu’un bon moyen d’entrer dans le sujet était un tour de table avec les participants, en les invitant à se situer dans le schéma très global des différents acteurs impliqués dans la fouille de textes détaillé dans nos livrables de l’étude Visa TM. Ceci nous a amenés très rapidement à un premier constat : les participants de l’atelier étaient très majoritairement des professionnels de l’IST et se plaçaient spontanément dans un rôle d’accompagnant des utilisateurs de la fouille de textes.  Nous nous sommes interrogés parallèlement sur l’absence dans cet atelier des chercheurs en TAL/TDM qui sont sans doute, aujourd’hui encore, plus interpellés par les aspects techniques de la fouille de textes que par les besoins en transmission de compétences et de savoirs. Or ce transfert est indispensable à une adoption plus large des techniques de fouille de textes.

Forts de ce constat nous sommes donc partis de l’expérience des participants avec les outils qu’ils manient déjà ( dont des outils de visualisation) et avons recentré l’atelier autour des freins exprimés par ces accompagnants potentiels de la fouille de textes à destination des chercheurs, pour envisager ensuite, et avec eux, comment les aider à surmonter les blocages.

Les freins/besoins les plus évoqués se centraient sur :

  1. La compréhension du fonctionnement des outils de fouille de textes afin d’être en mesure d’expliquer (et non pas analyser, ce qui unanimement a été considéré comme du ressort du chercheur) les résultats issus d’un traitement. L’idée ici étant de corriger des processus de traitement si besoin ou de comprendre des résultats avec du « bruit » ou du « silence ». Cette compréhension des outils portant non pas exclusivement sur les aspects techniques mais plutôt sur leurs modalités de fonctionnement. Une documentation des outils, la mise en place de forums d’utilisateurs ou même le recours à des personnes référentes ont été évoqués comme une réponse possible à ce besoin;
  2. L’accès à des corpus de documents et des ressources sémantiques adaptés aux travaux de fouille de textes envisagés. Ces besoins soulignent la nécessité de l’intervention du chercheur dans le champ de ses compétences disciplinaires. Une notion importante a été évoquée durant les discussions à savoir où poser le curseur de ce qui peut être considéré comme un résultat de qualité (en particulier dans la constitution d’un corpus adapté). Peut-être devrait-on admettre que le 100% n’est pas la cible absolue à atteindre (d’autant que les corpus sont éminemment variables dans le temps et différents suivant les utilisateurs) et que des résultats peuvent être néanmoins exploitables à des niveaux de qualité moindre, peut-être de l’ordre du 90%. Nous avons supposé que cette recherche d’une forme de “perfectionnisme” pouvait avoir des ressorts culturels qu’il pourrait être utile de remettre en cause;
  3. Une difficulté majeure : l’expression des besoins réels par le chercheur, qui conditionne les résultats et qui est sans-doute une compétence à développer. En effet, si le besoin n’est pas clairement délimité, les résultats peuvent être l’objet de frustrations par rapport aux attentes;   
  4. En tout dernier, il ne faut pas oublier que du point de vue de la disponibilité des compétences existantes dans les diverses branches de l’intelligence artificielle dont la fouille de textes est bénéficiaire, la pression de compétition en termes de salaires entre le public et le privé est très importante et plutôt en défaveur aujourd’hui des structures publiques, peinant à retenir les talents dont elles auraient sans-doute besoin dans ce domaine.

En termes de formation, les points majeurs suivants ont été soulignés :

  1. L’absolue nécessité pour les accompagnants de travailler et apprendre avec le chercheur lui-même, en particulier en raison des besoins en compétences disciplinaires;
  2. L’accès à des cas d’usage détaillés de processus de fouille de textes, élaborés sur des demandes réelles de chercheurs et qui pourraient constituer une base de travail pour d’autres questions à traiter. Une mobilisation à la fois de l’accompagnant et du chercheur dans le cadre d’une formation dédiée est envisagée, soulignant ainsi la forte interdépendance de ces deux types d’acteurs dans une activité de fouille de textes. Cette formation par un tiers peut même être envisagée ponctuellement en présentiel au décours du déroulé d’un projet afin de répondre le plus précisément aux attentes;
  3. La consultation des formations existantes et répertoriée dans le livrable « Description de l’e-infrastructure » a amené à la constatation que la fouille de textes ne peut faire l’objet de formations courtes (1 à 2 jours), en-dehors d’une optique de sensibilisation simple, pour viser une prise en main réelle des processus.

Nous pouvons conclure à l’issue de cet atelier :

  • Que les professionnels de l’IST ont incontestablement un rôle à jouer dans l’appropriation par les communautés de recherche des techniques de fouille de textes;
  • Qu’ils ne pourront le faire que « main dans la main » avec les chercheurs des différentes disciplines;
  • Qu’une réflexion approfondie et un plan d’action des modalités de montée en compétences s’impose : présentiel, « compagnonnage », etc.
  • Qu’une première avancée serait un travail autour de la description des modalités de fonctionnement des outils; 
  • Qu’il serait utile d’intéresser plus amplement les chercheurs en TAL/TDM aux problématiques de compétences et les inciter au transfert de savoirs.