Restitution par Sylvain Massip (Opscidia)

1.  Quelles tâches pour un robot en 2050 ?

Nous avons commencé par nous projeter en 2050 pour imaginer quelles pourraient être les utilisations idéales de la fouille de textes. Les participants ont émis beaucoup d’idées qui rentraient globalement dans quatre catégories :

  • Des interfaces homme-Machine évoluées, qui permettent de poser à la machine une question complexe de façon simple.
  • Des applications qui permettent de détecter les signaux faibles, et pas uniquement les grandes tendances.
  • Des applications capables d’analyser des informations incomplète, lacunaires, contradictoires, inexactes.
  • Des applications qui permettent de construire automatiquement des applications de fouille de textes : assemblage de blocs de traitement, sélection de corpus etc.

2.  De la fouille de textes, mais aussi d’autres briques technologiques

Nous avons donc vu que ces applications ne nécessitent pas uniquement l’avancée des technologies de la fouille de textes, mais également l’intégration d’autres technologies :

  • L’accès aux corpus demeure un problème aussi bien technique que légal
  • Le traitement automatique des sons et des vidéos : la récupération des données dans des médias autres que le texte, ainsi que l’analyse des signaux non-verbaux permettraient de rendre l’analyse plus complète. 
  • L’automatisation des raisonnements formels, l’analyse intégrative de données.

3.  Quelles caractéristiques pour une bonne application de fouille de textes ?

Nous avons choisi de sélectionner une proposition spécifique et de nous demander sur quels critères une application de fouille de textes réalisant cette fonction serait évaluée : « Mon robot sait retrouver une information que je cherche sous la forme de réponse à une question en langage naturel, même dans le cas où l’analyse porte sur un grand nombre de documents ».

Dans l’ordre, les critères les plus importants nous ont semblé être :

1. Une réponse pertinente : avant tout, ne pas répondre à côté de la question.

2. Une réponse la plus correcte possible

2 bis. Une réponse la plus complète possible

3. Avec des niveaux de confiance sur la complétude et l’exactitude de la réponse.

D’autres critères nous ont semblé importants, mais moins prioritaires. Ce sont plutôt des “nice to have” :

4. Une interface Homme-Machine simple et intuitive, pour poser la question, comme pour étudier les réponses.

5. L’explicabilité des algorithmes : comment la machine a-t-elle obtenu son résultat ? 

4.  Quelle est la situation actuelle ?

Sur ce sujet, les points de vue étaient assez divergents entre les concepteurs d’application de fouille de textes et les utilisateurs d’applications de fouille de textes dans la salle. 

Les utilisateurs ont souligné que nous sommes encore très loin du résultat décrit précédemment. 

Les chercheurs en Traitement Automatique des Langues et en fouille de textes, à l’inverse, ont souligné que beaucoup de briques technologiques existent déjà mais nécessitent néanmoins d’être assemblées et un usage expert.

Les principaux verrous identifiés sont donc :

–      L’accès (technique et légal) aux corpus

–       L’interopérabilité entre les briques logicielles

–      Divers problème d’ingénierie logicielle dans le montage des applications dont les interfaces homme-machine

–      Le besoin de faire connaître les outils qui existent déjà et de former à leur usage.