Nous avions relaté il y a quelques mois pourquoi et comment nous avions décidé de mettre sur pied une ontologie computationnelle à partir de la liste d’outils de fouille de textes élaborée au décours du projet VisaTM. Nous poursuivions l’idée, au-delà de la mise à disposition d’une ontologie dédiée,  d’intégrer cette modélisation au sein d’une base de données d’applications spécialisées en fouille de textes mise à disposition en ligne, au service des communautés scientifiques et des utilisateurs peu familiers avec ces outils. Nous vous présentons donc ici TM Tools Explorer la version bêta de cette application.

Pour rappel, ce travail est le fruit d’une collaboration entre les services « Text et Data Mining » et « Ingénierie Terminologique » de l’Inist-CNRS.

La mise sur pied de l’ontologie OntoTM et la méthodologie employée ayant fait l’objet d’un article précédent, nous nous focaliserons ici sur l’application d’exploration des outils de fouille de textes construite à partir de l’outil Lodex de l’Inist-CNRS.

Lodex ( Linked Open Data EXperiment ) est un outil permettant de

  • publier des jeux de données (.csv, .tsv, .xml, .json, etc.) dans des formats du web sémantique (JSON-LD, N-Quads) et les manipuler dans une interface d’administration dédiée ;
  • exposer ces données dans un rapport web dynamique sous la forme d’un tableau de bord avec des graphiques.

Après un travail d’enrichissement de l’ontologie tant au niveau des classes que des propriétés qui nous semblaient pertinentes, nous en avons extrait un jeu de données en .csv. Nous avons privilégié dans cette version bêta de ne retenir que les outils libres mais nous traiterons ultérieurement également les outils payants. A ce stade, et avant versement des données dans Lodex, nous avons effectué deux séries d’enrichissements :

  • un mapping des outils avec ceux répertoriés dans Wikidata nous permettant d’enrichir notre fichier avec les liens vers les notices Wikidata trouvées ;
  • une recherche automatisée de références bibliographiques liées aux outils à la fois dans la base ISTEX et dans la base Conditor. Cela nous a permis d’obtenir un panel de notices bibliographiques qu’il a été nécessaire d’épurer afin de ne retenir que les plus pertinentes. Parallèlement, nous avons exploré le web également à la recherche de références supplémentaires. Dans les deux cas, notre choix s’est porté sur des références de synthèse sur chacun des outils décrit ou des cas d’usage de ces outils. Nous n’avons retenu qu’un nombre restreint de références à chaque fois et malheureusement pas toujours trouvé de référence bibliographique adéquate pour chaque outil. Les liens en accès ouvert vers les références bibliographiques, lorsqu’ils étaient disponibles, ont également été fournis.

Ensuite, nous avons procédé au chargement du fichier .csv dans Lodex en vue de son exploitation. Sur la base de l’ontologie nous avons ainsi pu mettre en avant un certain nombre de facettes dans TM Tools Explorer : tâche(s) effectuée(s) par l’outil, pays de production, langue(s) traitée(s), langage(s) de programmation, format(s) d’entrée, système(s) d’exploitation, interface(s) utilisateurs. Les croisements de différentes facettes sont susceptibles de constituer une aide à la recherche pour des outils spécifiques.

Ci-dessous une recherche d’outils d’analyse de sentiments prenant en charge le français par exemple:

Des tableaux de bord sous forme de graphes permettent d’avoir un aperçu rapide du contenu de la base de données, comme par exemple la distribution des tâches des outils répertoriés dans la base:

Chaque outil dispose ainsi d’une “fiche d’identité” rassemblant un certain nombre de caractéristiques:

Plusieurs points doivent néanmoins être soulignés afin de ne pas introduire de biais dans l’interprétation des résultats :

  • L’ensemble des données présentes dans TM Tools Explorer tend à une certaine exhaustivité mais ne saurait bien évidemment prétendre à être totale. Il en résulte que les résultats doivent s’interpréter à l’aune de cet échantillon particulier. Ainsi en est-il en notamment pour les divers graphiques.
  • Les représentations actuelles des données ne tiennent pas compte des hiérarchies de classes existantes dans l’ontologie OntoTM. Ce point va être pris en compte dans une version prochaine de TM Tools Explorer et doit amener à la prudence aussi dans l’interprétation des résultats à ce jour.

Etant partis d’une base dans laquelle les données étaient renseignées majoritairement en anglais, et afin de proposer plus rapidement une version utilisable, nous avons fait le choix de produire cette version bêta en anglais. Une version en français devrait suivre assez rapidement néanmoins.

Nous tâcherons par une veille régulière de mettre à jour les données mais nous comptons aussi sur une appropriation de l’outil par les communautés d’utilisateurs et les communautés de recherche impliquées dans des travaux sur le Traitement Automatique des Langues ainsi que la fouille de textes pour enrichir cette base de données aussi bien avec de nouveaux outils que des compléments d’information sur ceux déjà rentrés ( sur l’ensemble des facettes mais aussi par l’apport de références bibliographiques lorsque celles-ci nous ont échappé). C’est donc clairement dans une optique collaborative et ouverte que nous avons construit cette première proposition au service d’une facilitation d’appropriation par tous des outils de fouille de textes, la plus simple possible.

Toujours dans ce même esprit nous restons évidemment ouverts à toute proposition d’amélioration.  A cet effet, vous pouvez nous laisser un message :

Fabienne Kettani (Équipe Text and Data Mining, Inist-CNRS)

Frank Arnould (Équipe Ingénierie terminologique, Inist-CNRS)