Les 26 et 28 octobre 2020 a eu lieu la conférence virtuelle WikiCite, coïncidant avec les célébrations du 8ème anniversaire de Wikidata. WikiCite est une initiative pour développer les citations ouvertes et les données bibliographiques liées, en créant une base de données basée sur Wikidata.Cette année WikiCite c’était… Lire plus
Au cours du projet VisaTM, nous avions produit une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes. L’idée générale de ce document était de disposer d’un premier panorama des applications disponibles. La description de chaque outil contenait les informations… Lire plus
Les équipes Bibliome et Migale de l’unité INRAE-MaIAGE en collaboration avec le projet ENovFood du métaprogramme MEM proposent le service en ligne Florilège destiné aux microbiologistes pour l’étude des phénotypes et habitats microbiens. Florilège donne accès à un ensemble d’informations extraites, structurées, agrégées et… Lire plus
Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici. Lire plus
Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés.
L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote.
Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus