Technique
Rapports publics du projet Visa TM

Nous vous invitons à découvrir les résultats du projet et mettons à votre disposition en consultation et en téléchargement les documents ci-dessous . Les principaux résultats de Visa TM portent sur : l’étude de la création d’une e-infrastructure de fouille de textes française en exposant ses besoins, ses acteurs, son… Lire plus
Sélection d’un corpus « géosciences » dans ISTEX

Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés. L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote. Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus
Visa TM en vidéo

Vers une infrastructure de services avancés en Text Mining /wp-content/uploads/2019/09/1568875574.mp4… Lire plus
Le projet Visa TM

Objectifs / Composantes du projet / Organisation du projet Objectifs du projet L’objectif du projet Visa TM est de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, en offrant des services à même de contribuer à un effet catalyseur de la science :… Lire plus
L’Inist accompagne les doctorants de Panthéon Sorbonne vers le TDM

« Découvrir la fouille de textes à partir des ressources Istex », c’était ce matin et en visio. Dans le cadre des Cycl@doc, des formations dédiées aux doctorants organisées par le Service Commun de Documentation de l’Université Paris 1 Panthéon Sorbonne, les équipes Istex Corpus et TDM de l’Inist ont… Lire plus
Détection de genre

Ce web service permet de détecter le genre à partir d’une liste de prénoms genrés. Cette liste est un mélange entre les données issues de la librairie python gender-guesser et des données issues de la plateforme Kaggle. Elles ont été fusionnées dans un pré-traitement et enregistrées sous la… Lire plus
Webinaire « Découverte du TDM » jeudi 8 juin 10h30 à 12h30

Vous avez entendu parler du TDM (Text et data Mining) mais vous vous interrogez sur les principes et le fonctionnement, vous souhaitez avoir une approche des enjeux de ces techniques ou encore vous avez besoin de consolider les aspects éthiques et juridiques, alors n’hésitez pas à vous joindre à ce… Lire plus
Attribution d’un RNSR à une affiliation (Apprentissage)

Le RNSR, Référentiel National des Structures de Recherche (français), référence les structures de recherche publiques et privées au niveau national. Il est administré par le ministère chargé de la recherche. En particulier, cet identifiant attribue à chaque structure de recherche un identifiant (par exemple 199213009E), et recense différents éléments… Lire plus
Lemmatiseur_ENG

Ce service permet de lemmatiser des termes en anglais. En linguistique informatique, la lemmatisation est une procédure permettant de ramener un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi, par exemple, , les noms, les adjectifs, au… Lire plus
Homogénéisation des affiliations hospitalières

Ce web service a pour fonction d’homogénéiser les adresses d’affiliations hospitalières en identifiant l’hôpital ou la structure à laquelle l’affiliation est rattachée. Cette homogénéisation est réalisée à l’aide d’une table de correspondance et de la bibliothèque python fuzzywuzzy. La bibliothèque fuzzywuzzy utilise la distance de Levenshtein. Cette distance… Lire plus
IRC3 species: recherche de noms d’espèces

Ce service web permet de détecter dans un texte les noms scientifiques d’espèces animales, végétales (ainsi que les virus, bactéries, champignons, chromistes, protistes, etc.). Ils doivent être présents dans le Catalogue of Life qui en contient 3,8 millions, sous des formes différentes. IRC3sp est une version de… Lire plus
ANF TDM 2022 « Exploration documentaire et extraction d’information » 3 au 5 octobre 2022 Délégation Paris-Michel Ange du CNRS

Organisée par le CNRS et l’INRAE, cette formation s’adressait aux chercheurs et chercheuses, doctorant(e)s et ingénieur(e)s d’appui à la recherche souhaitant se former aux techniques numériques pour mettre en place ou développer la recherche d’information et la fouille de textes dans leur activité professionnelle. Le service Text et… Lire plus
Identification des laboratoires IN2P3

Le web service permet d’attribuer le nom d’un des laboratoires IN2P3 à partir des codes laboratoires IN2P3, issus de la base INSPIRE_Hep signalés dans une table d’équivalence. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une… Lire plus
Regroupement des catégories Inspire en méta-catégories IN2P3

Le web service permet d’homogénéiser les catégories Inspire, issues de la base INSPIRE_Hep et de les regrouper en méta-catégories propres à l’IN2P3. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une table d’équivalence créée en amont. Lire plus
Utilisation des Web Services en dehors de Lodex

Avant-propos Dans cet article sur l’utilisation des web services en dehors de lodex, nous allons présenter Hoppscotch et data.page, tous deux utilisables via votre navigateur. Les fichiers que vous choisissez sont ainsi envoyés dans leurs serveurs pour être traités. Comment utiliser un web service ? Il y a plusieurs… Lire plus
détection d’unités CNRS

Le service web de détection d’unités CNRS prend en entrée une affiliation d’auteur (laboratoire ou structure d’appartenance) et, si l’affiliation appartient au CNRS renvoie : -le nom du laboratoire -son sigle (s’il existe) -son code RNSR -son institut d’appartenance Si l’adresse n’appartient pas au CNRS le service renvoie « unknown » Le… Lire plus
Enrichissement Teeft dans LODEX

Dans LODEX, les enrichissements sont par défaut en mode simple, et n’ont que peu de paramètres. Une manière d’accéder à plus de paramètres est de passer en mode avancé. On se trouve alors face à un script modifiable. Ce script pouvant être un peu… Lire plus
La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils – rectificatif

Diverses raisons nous ont contraint, en accord avec l’Enssib, à reporter notre formation initialement prévue fin septembre au mardi 29 novembre 2022. Les lieux et horaires ainsi que le programme restent inchangés. Vous avez donc encore un peu de temps supplémentaire pour vous inscrire et si vous évoluez… Lire plus
WS domains-classifier : cascade de modèles pour l’affectation de domaine(s) scientifique(s) aux publications scientifiques

L’attribution de domaine(s) scientifique(s) est une activité nécessaire à la caractérisation et donc à l’identification des contenus des bibliothèques numériques. Les méthodes actuelles basées sur l’apprentissage supervisé permettent de tirer parti de fonds documentaires pour lesquels il existe des données enrichies. … Lire plus
Enrichissement RNSR dans LODEX

Mode simple insuffisant Utiliser un service web dans LODEX pour enrichir les données est, la plupart du temps, très simple: on crée un enrichissement, on lui donne un nom (qui sera le nom de la colonne créée), on donne l’URL du service à utiliser, on sélectionne la colonne (le… Lire plus
La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils

Pour la 3e fois consécutive, l’Enssib a sollicité l’INIST-CNRS pour prendre en charge la responsabilité scientifique et l’animation d’une formation intitulée : « La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils ». Cette formation se déroule sur… Lire plus
Détection d’entités nommées dans les bulletins administratifs de l’instruction publique – Persée

Le web service de détection d’entités nommées dans les bulletins administratifs de l’instruction publique, Persée, prend en entrée un bulletin administratif de l’instruction publique sous forme de texte et renvoie un dictionnaire contenant les organismes scolaires, localisations et opérations trouvés dans le champ. L’algorithme ayant été entraîné sur des bulletins… Lire plus
Attribution de noms d’instituts CNRS à partir d’identifiants RNSR

Le web service permet d’attribuer un institut CNRS, dans lequel se trouve une structure de recherche française, à partir d’un identifiant RNSR. Pour rappel, le RNSR, Référentiel national des structures de recherche, référence les structures de recherche publiques et privées au niveau national. Il est administré par le… Lire plus
Homogénéisation des sources (revues, ouvrages, congrès)

Le web service permet d’homogénéiser les formes d’écriture des valeurs « sources » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir de valeurs « sources » issues du Web of Science (sur l’année 2019). Une source peut être le… Lire plus
Homogénéisation des éditeurs

Le web service permet d’homogénéiser les formes d’écriture des valeurs « éditeurs » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed) à partir de valeurs « éditeurs » issues du Web of Science (sur l’année 2019). NB : Il s’agit d’un… Lire plus
Homogénéisation des types de documents

Le web service permet d’homogénéiser les formes d’écriture des valeurs « types de documents » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir des valeurs « types de document » issues du Web of Science (sur l’année 2019). Ces… Lire plus
Associer un IDREF Auteur à un identifiant HAL Author ID

Ce web service permet de faire correspondre l’identifiant IDREF auteurs à celui des publiants dans HAL, disposant d’un identifiant IDAHL authors. IdRef (Identifiants et Référentiels pour l’Enseignement Supérieur et la Recherche) est une application Web développée et maintenue par l’ABES (Agence bibliographique de l’Enseignement Supérieur), qui… Lire plus
Associer un identifiant ORCID à l’identifiant IDREF correspondant

Ce web service permet d’associer un identifiant ORCID à l’identifiant IDREF à partir d’une table d’équivalence. ORCID est un identifiant dédié spécifiquement aux auteurs. ORCID (Open Researcher and Contributor ID) est une organisation à but non lucratif… Lire plus
Les webservices à l’Inist

L’Inist-CNRS propose une série de services web, accessibles de l’extérieur. Ces services tournent autour du TDM (Text and Data Mining, ou fouille de texte) et de la terminologie. Vous aurez ainsi accès à des traitements spécialisés, sans avoir à installer de programme spécifique (ni son environnement particulier, comme par exemple… Lire plus
La version française de TM Tools Explorer

Nous avions présenté en novembre 2021 la version bêta de TM Tools Explorer, une application en ligne vous permettant de choisir un outil de TDM adapté à vos besoins. Nous avions aussi expliqué la procédure pour la mettre sur pied. Cette première version était en anglais et nous pouvons… Lire plus
Détection d’entités géographiques

Le web service de détection d’entités géographiques prend en entrée un texte en anglais et renvoie la liste des localisations trouvées dans ce texte. Ce web service fonctionnant avec de l’apprentissage, il est nécessaire de l’utiliser sur des phrases pour un résultat plus fiable. Lire plus
Classification dans les domaines HAL

Le web service de classification « HAL » prend en entrée un texte en anglais et donne le domaine scientifique correspondant dans le plan de classement utilisé par la base HAL (https://aurehal.archives-ouvertes.fr/domain/index). Comme toute méthode par apprentissage il faut qu’il y ait un minimum de texte pour que le… Lire plus
Enrichissement par DOI

Ce service permet de récupérer les métadonnées d’un article scientifique à partir d’un ou plusieurs DOI. Ce service ne propose aucun traitement particulier sur les données, il se contente d’interroger les différentes bases distantes de la même manière. Par exemple, il peut servir dans Lodex à la récupération de données… Lire plus
Associer un terme au vocabulaire des communes de France

La plateforme Loterre propose des vocabulaires ou terminologies pour différents domaines scientifiques. Autour d’un concept, Loterre propose plusieurs verbalisations et différents liens vers des bases de références. Le vocabulaire Communes de France propose pour chaque communes en France des concepts regroupant informations géographiques, variantes syntaxiques, acronymes, et formes normalisées. Lire plus
Normaliser un texte ou un terme

Ce service permet de normaliser un texte, un terme ou plus généralement une chaîne de caractères. Ici la normalisation sous-entend supprimer les caractères accentuées, supprimer les caractères spéciaux, supprimer les blancs inutiles et redondants pour in fine mettre tous les caractères restant en majuscule. Ce service très simple peut servir… Lire plus
Boite à outils NLP_tools

La bibliothèque d’outils pour le traitement NLP-tools (construite au dessus de https://spacy.io/) contient des composants qui vous permettent d’ effectuer des traitements lexicaux, morphologiques et syntaxiques de base sur des corpus textuels . Les composants disponibles vous permettent de traitements de : Stemming [engine = stemmer], en français et… Lire plus
Associer un terme au vocabulaire Pays et Subdivision

La plateforme Loterre propose des vocabulaires ou terminologies pour différents domaines scientifiques. Autour d’un concept, Loterre propose plusieurs verbalisations et différents liens vers des bases de références. Le vocabulaire Pays et Subdivision de Loterre propose pour chaque pays et région française des concepts regroupant informations géographiques, variantes syntaxiques, acronymes,… Lire plus
Verbalisation des préfixes de DOI

Les identifiants de type DOI sont composés de plusieurs parties : Dans le monde de la publication scientifique, le préfixe est un identifiant qui correspond généralement au publisher d’un article. Crossref stocke toutes les informations liées au DOI. Le webservice permet d’interroger la base de données Crossref pour verbaliser… Lire plus
Extraction de termes d’un texte via Teeft

Le service web teeft extrait les termes les plus pertinents d’un texte en anglais ou en français. Il permet d’avoir une idée de ce dont parle le texte. Idéalement, le texte doit contenir plusieurs paragraphes. Par défaut teeft extrait 5 termes, sauf si la variable ‘nb’ est utilisée. Variante Pour… Lire plus
Découpage d’une adresse

Une adresse postale est souvent présentée sous forme textuelle, exemple: 2, rue Jean Zay 54519 Vandœuvre-lès-Nancy France Cependant, une adresse est composée de plusieurs informations sémantiquement différentes comme le pays, la rue ou le code postal. Pour l’exemple précédent: NomValeur nom de la rueJean Zay Code postal54519… Lire plus
Détection de la langue d’un texte

Le web-service detect-lang détecte la langue d’un document texte et renvoie le code langue et la probabilité correspondante. Dans le cas où le résultat est trop incertain, le service renverra unknown. À noter que la détection de langue a besoin d’un texte suffisamment long pour fonctionner correctement. Avec un nombre… Lire plus
Attribution d’identifiants ARK

Les identifiants ARK sont des identifiants pérennes indépendants et à gestion décentralisée. Chaque autorité nomante doit garantir l’unicité et la pérennité des identifiants qu’elle génère. L’Inist-CNRS utilise les identifiants ARK pour différents types de ressources numériques (archive de documents, concepts terminologiques, etc.). Pour attribuer des identifiants et conserver un historique… Lire plus
Ajout d’identifiant(s) RNSR à une adresse

Le RNSR, Référentiel National des Structures de Recherche (français), référence les structures de recherche publiques et privées au niveau national. Il est administré par le ministère chargé de la recherche. En particulier, il attribue à chaque structure de recherche un identifiant (par exemple 199213009E), et recense différents… Lire plus
Classification en domaines scientifiques

Le web service de classification automatique, permet de classer des documents scientifiques en anglais dans le plan de classement Pascal (Sciences, Techniques et Médecine) ou Francis (Sciences Humaines et Sociales). Après traitement, chaque document possédera un domaine scientifique homogène, dans la mesure où les données de départ ont permis… Lire plus
De l’ontologie OntoTM à TM Tools Explorer

Nous avions relaté il y a quelques mois pourquoi et comment nous avions décidé de mettre sur pied une ontologie computationnelle à partir de la liste d’outils de fouille de textes élaborée au décours du projet VisaTM. Nous poursuivions l’idée, au-delà de la mise à disposition d’une ontologie… Lire plus
La conférence WikiCite 2020

Les 26 et 28 octobre 2020 a eu lieu la conférence virtuelle WikiCite, coïncidant avec les célébrations du 8ème anniversaire de Wikidata. WikiCite est une initiative pour développer les citations ouvertes et les données bibliographiques liées, en créant une base de données basée sur Wikidata.Cette année WikiCite c’était… Lire plus
Une ontologie des outils de fouille de textes

Au cours du projet VisaTM, nous avions produit une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes. L’idée générale de ce document était de disposer d’un premier panorama des applications disponibles. La description de chaque outil contenait les informations… Lire plus
Le text-mining, source de connaissance de Florilège, la base de données intégrative d’habitats et de phénotypes microbiens

Les équipes Bibliome et Migale de l’unité INRAE-MaIAGE en collaboration avec le projet ENovFood du métaprogramme MEM proposent le service en ligne Florilège destiné aux microbiologistes pour l’étude des phénotypes et habitats microbiens. Florilège donne accès à un ensemble d’informations extraites, structurées, agrégées et… Lire plus
La fouille de textes aujourd’hui… et demain ? résultats de l’enquête

Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici. Lire plus
Compte rendu de l’atelier : Compétences et profils nécessaires, quelles formations ?

Restitution par Joanna Janik (Chargée de projets formations IST à la DIST-CNRS et copilote du Collège Compétences et formations du Comité pour la Science Ouverte) La fouille de textes et de données ne constitue pas seulement un défi technologique ou juridique mais également un défi humain pour amener les différents… Lire plus
Compte rendu de l’atelier : Futurs utilisateurs / futures utilisations

Restitution par Sylvain Massip (Opscidia) 1. Quelles tâches pour un robot en 2050 ? Nous avons commencé par nous projeter en 2050 pour imaginer quelles pourraient être les utilisations idéales de la fouille de textes. Les participants ont émis beaucoup d’idées qui rentraient globalement dans quatre catégories : Des interfaces homme-Machine évoluées,… Lire plus
Compte rendu de l’atelier : Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services

Objectif Réfléchir et suggérer des idées, identifier les freins et les modes opératoires pour activer la valorisation et faciliter le transfert des produits de la recherche en fouille de textes grâce à une e-infrastructure dédiée. Modalité « World café » La salle comporte trois tables, chacune est dédiée à un… Lire plus
Compte rendu de l’atelier : quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service à base de TDM ?

L’atelier “Acteurs” a rassemblé 9 personnes, mêlant professionnels IST (Information Scientifique et Technique), cadres de la recherche, chercheurs/ingénieurs (en Traitement Automatique des Langues et non Traitement Automatique des Langues) et enseignants-chercheurs. L’objectif était de cartographier les acteurs à mobiliser dans le cadre de la mise en place d’un service ou… Lire plus
Les ateliers de Visa TM Day

Les ateliers prospectifs autour de “quelle infrastructure de service de fouille de textes pour demain” ont permis de faire émerger une analyse partagée sur ce sujet à travers 4 thématiques : Quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service de fouille de textes intégré dans… Lire plus
Diffusion des supports de Visa TM Day

Les présentations et restitutions de la journée Visa TM Day sont mis à votre disposition en téléchargement ci-dessous. Des applications scientifiques d’extraction de l’information « Fouille de texte sur les réseaux sociaux pour la pharmacovigilance » par Cyril Grouin, LIMSI (CNRS), France Présentation de Cyril Grouin licence CC-BY-NC-SA… Lire plus
Galaxy server for complex TDM analysis : part 5

Machine Learning in Galaxy TDM is mostly based on statistical, machine Learning and artificial intelligence methods, algorithms and technologies. Several projects provide these tools in open access. LAPPS Grid https://www.lappsgrid.org/ https://static.sched.com/hosted_files/gcc2019/90/S-6-Out-3LAPPS%20GCC%202019%20-%20Alex.pdf Vassar College, Poughkeepsie, NY USA Johns Hopkins University, Baltimore, MD, USA LAPPS Grid – An open, interoperable… Lire plus
Galaxy server for complex TDM analysis : part 4

Galaxy on HPC Knowing that more and more often the data analysis request a lot of computational power, one of the challenges today is to be able to execute Galaxy on High Performance Computing clusters (HPC); several projects in different countries are running to solve this problem and to provide… Lire plus
Mutualisation des efforts dans la mise en oeuvre de portails de ressources sémantiques

Les principes de FAIR ont établi l’importance d’utiliser des vocabulaires ou des ontologies standard pour décrire les données FAIR et faciliter l’interopérabilité et la réutilisation. Cependant, au cours des dernières années, nous avons assisté à une explosion du nombre de ressources sémantiques de sorte qu’il devient obligatoire d’offrir des portails… Lire plus
Visa TM day vendredi 15 novembre : découvrez le programme

Rendez-vous le 15 novembre 2019 à Paris pour discuter des perspectives concrètes d’une solution de services en fouille de textes. Les inscriptions sont ouvertes jusqu’au 2 novembre. Cette rencontre promet un programme riche et diversifié. Sylvie Rousset, Directrice de la DIST CNRS ouvrira la journée. La matinée… Lire plus
Le text mining pour la recherche en microbiologie – un exemple

Alexandra, la biologiste et Marie, la bioinformaticienne utilisent le text mining pour trouver des informations dans l’abondante masse de publications en microbiologie. Alexandra cherche si une bactérie déjà étudiée pourrait être utilisée pour un nouveau produit fermenté, de yaourt et de concombre. La réponse en vidéo et en trois clics. Lire plus
Galaxy server for complex TDM analysis : part 3

Galaxy Cloud Cloud technologies are often needed in the case of large datasets or computationally intense applications. Cloud services are able to optimize resources between large numbers of users. Several projects are running to facilitate the execution of Galaxy on clouds. GalaxyCloudRunner https://galaxycloudrunner.readthedocs.io/ University of Melbourne, Melbourne, VIC, AUS… Lire plus
Galaxy server for complex TDM analysis : Part 2

Galaxy for TDM, latest achievements For several years Galaxy project has been constantly growing and evolving. Having an active community, the new projects are running and new features are continuing to be developed. The dedicated series of blog posts will provide a short overview of the latest and most interesting… Lire plus
Galaxy server for complex TDM analysis – Part 1

General overview Galaxy is an open source, web-based platform for data-intensive analysis. Founded for biomedical research, today galaxy can also be applied in other fields. In Visa-TM, we are looking to implement it in Text and Data Mining (TDM) area. There are several online Galaxy platforms available for free (UseGalaxy.eu… Lire plus
Visa TM Day

Le projet Visa TM et le Comité pour la Science Ouverte sont heureux de vous convier à Visa TM Day : Vers une infrastructure de services avancés en text-mining le vendredi 15 novembre de 9h à 17h au Ministère de l’Enseignement supérieur, de la Recherche et de L’innovation. En… Lire plus
Lancement du projet ANR D2KAB

En juin 2019, deux des acteurs de Visa TM (le LIRMM et MaIAGE) ont respectivement organisé et participé au lancement du projet ANR D2KAB (Des Données aux Connaissances en Agronomie et Biodiversité). D2KAB ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité… Lire plus
Critères de sélection d’outils de fouille de textes

Le travail sur les critères de sélection doit permettre de caractériser les outils de fouille de textes et de données afin de mieux cibler et sélectionner ceux qui sont les plus adaptés pour VisaTM. Il consiste à définir une liste de propriétés pertinentes lorsqu'on collecte des informations sur les outils lors d'une campagne de sélection et d'intégration d'outils. Les critères sont établis à partir de critères déjà utilisés dans OMTD ayant été sélectionnés lors d'un appel à proposition d'outils. Ils sont aussi établis sur la base des expériences sur le processus d'intégration et d'utilisation des outils de la plateforme OpenMinTeD. Les critères retenus s'attachent à différents types d'aspects (stratégique, méthodologique, technique, fonctionnel, opérationnel, prévisionnel). Ils s'accompagnent d'exemples de questions permettant de les renseigner. Le document contenant la liste des critères est joint. Voici quelques exemples : Lire plus
Recensement d’outils de fouille de textes [Mise à jour]

Dans le cadre du volet Étude du projet VisaTM, nous avons réalisé un recensement d'outils de fouille de textes. Le premier objectif de ce travail est de faire le point sur les moyens logiciels issus de l'Intelligence artificielle, du Traitement automatique du langage naturel et des Statistiques disponibles pour la découverte de connaissances à partir du traitement informatique de corpus textuels. Le second objectif est de disposer d'un référentiel d'outils pour l'enrichissement de la plateforme de fouille de textes dont le projet VisaTM évalue la faisabilité. Lire plus
Une suite à OpenMinTeD ?

Les équipes de l'Inist-CNRS et de l'INRA-MaIAGE se réunissent à nouveau autour de ARC (Athena Research and Innovation Centre) pour répondre à l'appel à proposition intitulé "INFRAEOSC-02-2019: Prototyping new innovative services" dans le cadre du programme européen pour la recherche et l’innovation « HORIZON 2020 ». Lire plus
Enquête VisaTM : la fouille de textes aujourd’hui… et demain?

Afin de qualifier au mieux, dans le cadre du projet VisaTM, les pratiques actuelles autour de la fouille de textes et à identifier les verrous et les moyens de les lever pour sa mise en œuvre au service des chercheurs, nous avons élaboré un questionnaire destiné à l'ensemble des acteurs de l'enseignement supérieur et de la recherche. Lire plus
Évaluation de la clusterisation avec Neurodoc du corpus Géosciences

L'application pilote développée à l’Inist dans le cadre de Visa TM est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle sera déployée sous forme de service en ligne sur OpenMinTeD. Elle permettra l’exploration d’un corpus d’articles scientifiques en texte intégral issu du réservoir ISTEX. Cette exploration inclut, entre autres, une cartographie des domaines scientifiques représentés dans le corpus, obtenue par une méthode de clusterisation (classification automatique non supervisée). Plusieurs méthodes de clusterisation seront étudiées dans cette étude. Cet article porte sur l'évaluation d'une clusterisation réalisée avec l'outil Neurodoc sur le corpus "géosciences" (voir Sélection du corpus "géosciences" dans ISTEX). Lire plus
VisaTM dans le cadre de Istex Tour

Depuis septembre, le projet VisaTM s'est joint au Istex tour, un tour de France en 20 dates, pour promouvoir l'utilisation du text mining. Ces rencontres aux quatre coins de la France ont été l'occasion pour l'équipe VisaTM non seulement, d'expliquer les concepts, de sensibiliser le public aux enjeux du TDM et de présenter les grandes lignes du projet, mais aussi d'échanger avec de futurs utilisateurs de services de text mining. Lire plus
L’architecture de services OMTD

L’architecture logicielle de la plateforme de TDM (Text and Data Mining) OpenMinTeD (OMTD) s’articule autour de trois services principaux. Le service Registry (catalogue) prend en charge le stockage, la navigation, le téléchargement, la recherche et la gestion de ressources comme les publications scientifiques, les composants de traitement (par exemple un étiqueteur morpho-syntaxique) et les ressources de la langue (lexiques, thesauri). Ces ressources sont téléchargées, puis enregistrées dans OpenMinTeD à travers un certain nombre de protocoles tels que Maven ou docker. Elles sont rigoureusement documentées grâce à un système riche de descriptions de métadonnées pour être réutilisables. Le service d’édition de Workflow assiste l’utilisateur à la création de workflows interopérables à base de composants TDM. Ces composants sont exécutés par le service de Workflows dans une infrastructure Cloud (ou sur une machine locale). Au travers du service d’édition d’annotation, l’utilisateur a la possibilité de créer des ensembles de données en annotant des textes, données qui peuvent ensuite être utilisées dans des workflows, dans un but d'évaluation par exemple. Lire plus
AgroPortal, source de ressources sémantiques pour OpenMinTeD

Les ontologies, thésaurus, terminologies et vocabulaires sont des types de ressources sémantiques indispensables dans les processus de fouille de texte et de données. AgroPortal est un portail de ressources sémantiques pour l’agronomie/l’agriculture, l’alimentation, les sciences des plantes et la biodiversité. Il est basé sur la technologie BioPortal développée… Lire plus