Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici.

À noter qu’il convient d’aborder les résultats obtenus en prenant en compte les biais liés aux canaux de diffusion de l’enquête. Les données récoltées reflètent certainement une vision parcellaire des besoins potentiels en fouille de textes. Nous retiendrons qu’une petite majorité de participants (essentiellement des chercheurs, enseignants-chercheurs et personnels exerçant des fonctions d’appui à la recherche) a répondu de façon complète au questionnaire.

La fouille de textes est pratiquée aussi bien par des non spécialistes utilisant la fouille de textes de façon ponctuelle (et dont le nombre est légèrement prépondérant)  que par des experts dont c’est le métier. L’extraction d’information, la classification/catégorisation de documents et l’aide à la découverte scientifique en sont les utilisations essentielles, sans exclure des activités comme l’analyse de sentiments. Elle se pratique à 42 % à l’aide de logiciels libres et le recours aux solutions commerciales est très minoritaire (2 %). Les solutions les plus utilisées sont RStudio, Iramuteq et des développements Python. Peu de répondants développent leurs propres outils. La pratique de la fouille de textes s’applique essentiellement sur les types de documents qui sont les sources d’informations habituelles des participants à savoir les articles scientifiques (35 %), mais aussi des pages web, les réseaux sociaux, la presse. Les prétraitements de la fouille de textes, particulièrement les traitements linguistiques restent l’apanage des experts.  On notera qu’à côté des corpus de textes, annotés ou non, il y a un recours important aux lexiques, thésaurus, taxonomies soulignant l’importance des ressources sémantiques dans les processus de fouille de textes.

Seuls 28 % des participants se déclarent aptes à mettre en œuvre un processus de fouille de textes dans sa globalité. Cela concerne en majorité des chercheurs spécialisés dans le domaine et dont le niveau de formation est de type universitaire. Certains répondants maîtrisent une partie seulement du processus et/ou font appel à des collègues pour y arriver. Nous notons qu’il y a une volonté forte de se former (63 %) dans notre panel de répondants. Très peu (6 %) déclarent n’avoir pas de temps à s’y consacrer. La formation en fouille de textes des répondants met en lumière un recours à de l’autoformation, associée ou non à des formations plus conventionnelles. Ils n’expriment aucune préférence tranchée pour une modalité particulière (présentiel, e-learning etc.) et restent sur des demandes très généralistes quant au contenu (généralités sur la fouille de textes,  applications possibles, solutions existantes, etc.). Sans surprise, seuls les chercheurs spécialisés ont des demandes plus pointues.

Les principaux freins à la fouille de texte évoqués sont :

  • le manque de personnel accompagnant spécialisé,
  • la complexité apparente des technologies,
  • l’hétérogénéité des formats de documents à traiter.

Pour lever une partie de ces freins, la formation est une réponse possible, mais aussi le libre accès aux ressources et outils.

Le dernier thème abordé par notre questionnaire s’adressait à un auditoire plutôt familier de la fouille de textes. Il visait à déterminer quels seraient les services attendus d’une plateforme dédiée. Au-delà des fonctions de base (configuration des processus de traitement, calcul, stockage et traitement de grands volumes de données, export de résultats) dont ils souhaitent qu’elles soient accessibles par une API, une forte demande repose sur l’annotation/extraction de termes ou entités nommées, mais aussi l’analyse morphologique et syntaxique, l’analyse du discours. Les répondants souhaitent pouvoir charger leurs propres corpus et sont demandeurs de ressources sémantiques utiles à l’exploitation de ces corpus. Un espace de travail sécurisé est souhaitable, tout comme la possibilité de partage d’outils, de traitements. La visualisation de données fait l’objet d’une forte demande. Enfin, une documentation claire et complète sur tous les éléments de la plateforme, adaptée au profil de l’utilisateur est jugée indispensable.

De façon générale, la simplicité d’utilisation est un objectif majeur à atteindre.