En route vers la fouille de textes et de données

Une ontologie des outils de fouille de textes

Au cours du projet VisaTM, nous avions produit une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes. L’idée générale de ce document était de disposer d’une première vision des applications disponibles. Chaque outil y est décrit par les informations… Lire plus

Le text-mining, source de connaissance de Florilège, la base de données intégrative d’habitats et de phénotypes microbiens

  Les équipes Bibliome et Migale de l’unité INRAE-MaIAGE en collaboration avec le projet ENovFood du métaprogramme MEM proposent le service en ligne Florilège destiné aux microbiologistes pour l’étude des phénotypes et habitats microbiens. Florilège donne accès à un ensemble d’informations extraites, structurées, agrégées et… Lire plus

La fouille de textes aujourd’hui… et demain ? résultats de l’enquête

Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici. Lire plus

Sélection d’un corpus « géosciences » dans ISTEX

Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés. L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote. Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus