TM Tools Explorer

Rapports publics du projet Visa TM

Publié lecalendar

Nous vous invitons à découvrir les résultats du projet et mettons à votre disposition en consultation et en téléchargement  les documents ci-dessous . Les principaux résultats de Visa TM portent sur :  l’étude de la création d’une e-infrastructure de fouille de textes française en exposant ses besoins, ses acteurs, son… Lire plus

Sélection d’un corpus « géosciences » dans ISTEX

Publié lecalendar

Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés. L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote. Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus

Visa TM en vidéo

Publié lecalendar

Vers une infrastructure de services avancés en Text Mining   /wp-content/uploads/2019/09/1568875574.mp4… Lire plus

Le projet Visa TM

Publié lecalendar

Objectifs / Composantes du projet / Organisation du projet Objectifs du projet L’objectif du projet Visa TM est de décrire une infrastructure capable de rendre la fouille de texte accessible à tous, en offrant des services à même de contribuer à un effet catalyseur de la science :… Lire plus

L’Inist accompagne les doctorants de Panthéon Sorbonne vers le TDM

Publié lecalendar

« Découvrir la fouille de textes à partir des ressources Istex », c’était ce matin et en visio. Dans le cadre des Cycl@doc, des formations dédiées aux doctorants organisées par le Service Commun de Documentation de l’Université Paris 1 Panthéon Sorbonne, les équipes Istex Corpus et TDM de l’Inist ont… Lire plus

Détection de genre

Publié lecalendar

Ce web service permet de détecter le genre à partir d’une liste de prénoms genrés. Cette liste est un mélange entre les données issues de la librairie python gender-guesser et des données issues de la plateforme Kaggle. Elles ont été fusionnées dans un pré-traitement et enregistrées sous la… Lire plus

Webinaire « Découverte du TDM » jeudi 8 juin 10h30 à 12h30

Publié lecalendar

Vous avez entendu parler du TDM (Text et data Mining) mais vous vous interrogez sur les principes et le fonctionnement, vous souhaitez avoir une approche des enjeux de ces techniques ou encore vous avez besoin de consolider les aspects éthiques et juridiques, alors n’hésitez pas à vous joindre à ce… Lire plus

Attribution d’un RNSR à une affiliation (Apprentissage)

Publié lecalendar

Le RNSR, Référentiel National des Structures de Recherche (français), référence les structures de recherche publiques et privées au niveau national. Il est administré par le ministère chargé de la recherche. En particulier, cet identifiant attribue à chaque structure de recherche un identifiant (par exemple 199213009E), et recense différents éléments… Lire plus

Lemmatiseur_ENG

Publié lecalendar

Ce service permet de lemmatiser des termes en anglais. En linguistique informatique, la lemmatisation est une procédure permettant de ramener un mot portant des marques de flexion (par exemple, la forme conjuguée d’un verbe : aimerions) à sa forme de référence (dite lemme : aimer). Ainsi, par exemple, , les noms, les adjectifs,  au… Lire plus

Homogénéisation des affiliations hospitalières

Publié lecalendar

Ce web service a pour fonction d’homogénéiser les adresses d’affiliations hospitalières en identifiant l’hôpital ou la structure à laquelle l’affiliation est rattachée. Cette homogénéisation est réalisée à l’aide d’une table de correspondance et de la bibliothèque python fuzzywuzzy. La bibliothèque fuzzywuzzy utilise la distance de Levenshtein. Cette distance… Lire plus

IRC3 species: recherche de noms d’espèces

Publié lecalendar

Ce service web permet de détecter dans un texte les noms scientifiques d’espèces animales, végétales (ainsi que les virus, bactéries, champignons, chromistes, protistes, etc.). Ils doivent être présents dans le Catalogue of Life qui en contient 3,8 millions, sous des formes différentes. IRC3sp est une version de… Lire plus

ANF TDM 2022 « Exploration documentaire et extraction d’information » 3 au 5 octobre 2022 Délégation Paris-Michel Ange du CNRS

Publié lecalendar

Organisée par le CNRS et l’INRAE, cette formation s’adressait aux chercheurs et chercheuses, doctorant(e)s et ingénieur(e)s d’appui à la recherche souhaitant se former aux techniques numériques pour mettre en place ou développer la recherche d’information et la fouille de textes dans leur activité professionnelle. Le service Text et… Lire plus

Identification des laboratoires IN2P3

Publié lecalendar

Le web service permet d’attribuer le nom d’un des laboratoires IN2P3 à partir des codes laboratoires IN2P3, issus de la base INSPIRE_Hep signalés dans une table d’équivalence. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une… Lire plus

Regroupement des catégories Inspire en méta-catégories IN2P3

Publié lecalendar

Le web service permet d’homogénéiser les catégories Inspire, issues de la base INSPIRE_Hep et de les regrouper en méta-catégories propres à l’IN2P3. Ce web-service est spécifique pour les besoins de l’IN2P3. NB : Il s’agit d’un web service d’alignement de valeurs, à partir d’une table d’équivalence créée en amont. Lire plus

Utilisation des Web Services en dehors de Lodex

Publié lecalendar

Avant-propos Dans cet article sur l’utilisation des web services en dehors de lodex, nous allons présenter Hoppscotch et data.page, tous deux utilisables via votre navigateur. Les fichiers que vous choisissez sont ainsi envoyés dans leurs serveurs pour être traités. Comment utiliser un web service ? Il y a plusieurs… Lire plus

détection d’unités CNRS

Publié lecalendar

Le service web de détection d’unités CNRS prend en entrée une affiliation d’auteur (laboratoire ou structure d’appartenance) et, si l’affiliation appartient au CNRS renvoie : -le nom du laboratoire -son sigle (s’il existe) -son code RNSR -son institut d’appartenance Si l’adresse n’appartient pas au CNRS le service renvoie « unknown » Le… Lire plus

Enrichissement Teeft dans LODEX

Publié lecalendar

Dans LODEX, les enrichissements sont par défaut en mode simple, et n’ont que peu de paramètres. Une manière d’accéder à plus de paramètres est de passer en mode avancé. On se trouve alors face à un script modifiable. Ce script pouvant être un peu… Lire plus

La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils – rectificatif

Publié lecalendar

Diverses raisons nous ont contraint, en accord avec l’Enssib, à reporter notre formation initialement prévue fin septembre au mardi 29 novembre 2022. Les lieux et horaires ainsi que le programme restent inchangés. Vous avez donc encore un peu de temps supplémentaire pour vous inscrire et si vous évoluez… Lire plus

WS domains-classifier : cascade de modèles pour l’affectation de domaine(s) scientifique(s) aux publications scientifiques

Publié lecalendar

L’attribution de domaine(s) scientifique(s) est une activité nécessaire à la caractérisation et donc à l’identification des contenus des bibliothèques numériques. Les méthodes actuelles basées sur l’apprentissage supervisé permettent de tirer parti de fonds documentaires pour lesquels il existe des données enrichies. … Lire plus

Enrichissement RNSR dans LODEX

Publié lecalendar

Mode simple insuffisant Utiliser un service web dans LODEX pour enrichir les données est, la plupart du temps, très simple: on crée un enrichissement, on lui donne un nom (qui sera le nom de la colonne créée), on donne l’URL du service à utiliser, on sélectionne la colonne (le… Lire plus

La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils

Publié lecalendar

Pour la 3e fois consécutive, l’Enssib a sollicité l’INIST-CNRS pour prendre en charge la responsabilité scientifique et l’animation d’une formation intitulée : « La fouille de textes par l’exemple : du corpus à la représentation des résultats en passant par les outils ». Cette formation se déroule sur… Lire plus

Détection d’entités nommées dans les bulletins administratifs de l’instruction publique – Persée

Publié lecalendar

Le web service de détection d’entités nommées dans les bulletins administratifs de l’instruction publique, Persée, prend en entrée un bulletin administratif de l’instruction publique sous forme de texte et renvoie un dictionnaire contenant les organismes scolaires, localisations et opérations trouvés dans le champ. L’algorithme ayant été entraîné sur des bulletins… Lire plus

Attribution de noms d’instituts CNRS à partir d’identifiants RNSR

Publié lecalendar

Le web service permet d’attribuer un institut CNRS, dans lequel se trouve une structure de recherche française, à partir d’un identifiant RNSR. Pour rappel, le RNSR, Référentiel national des structures de recherche, référence les structures de recherche publiques et privées au niveau national. Il est administré par le… Lire plus

Homogénéisation des sources (revues, ouvrages, congrès)

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs « sources » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir de valeurs « sources » issues du Web of Science (sur l’année 2019). Une source peut être le… Lire plus

Homogénéisation des éditeurs

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs « éditeurs » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed) à partir de valeurs « éditeurs » issues du Web of Science (sur l’année 2019). NB : Il s’agit d’un… Lire plus

Homogénéisation des types de documents

Publié lecalendar

Le web service permet d’homogénéiser les formes d’écriture des valeurs « types de documents » dans une notice bibliographique, issues de la base CONDITOR (données provenant de HAL, Crossref, Pubmed), à partir des valeurs « types de document » issues du Web of Science (sur l’année 2019). Ces… Lire plus

Associer un IDREF Auteur à un identifiant HAL Author ID

Publié lecalendar

Ce web service permet de faire correspondre l’identifiant IDREF auteurs à celui des publiants dans HAL, disposant d’un identifiant IDAHL authors. IdRef (Identifiants et Référentiels pour l’Enseignement Supérieur et la Recherche) est une application Web développée et maintenue par l’ABES (Agence bibliographique de l’Enseignement Supérieur), qui… Lire plus

Associer un identifiant ORCID à l’identifiant IDREF correspondant

Publié lecalendar

Ce web service permet d’associer un identifiant ORCID à l’identifiant IDREF à partir d’une table d’équivalence.  ORCID est un identifiant dédié spécifiquement aux auteurs. ORCID (Open Researcher and Contributor ID) est une organisation à but non lucratif… Lire plus

Les webservices à l’Inist

Publié lecalendar

L’Inist-CNRS propose une série de services web, accessibles de l’extérieur. Ces services tournent autour du TDM (Text and Data Mining, ou fouille de texte) et de la terminologie. Vous aurez ainsi accès à des traitements spécialisés, sans avoir à installer de programme spécifique (ni son environnement particulier, comme par exemple… Lire plus

La version française de TM Tools Explorer

Publié lecalendar

  Nous avions présenté en novembre 2021 la version bêta de TM Tools Explorer, une application en ligne vous permettant de choisir un outil de TDM adapté à vos besoins. Nous avions aussi expliqué la procédure pour la mettre sur pied. Cette première version était en anglais et nous pouvons… Lire plus

Détection d’entités géographiques

Publié lecalendar

Le web service de détection d’entités géographiques prend en entrée un texte en anglais et renvoie la liste des localisations trouvées dans ce texte. Ce web service fonctionnant avec de l’apprentissage, il est nécessaire de l’utiliser sur des phrases pour un résultat plus fiable. Lire plus

Classification dans les domaines HAL

Publié lecalendar

Le web service de classification « HAL » prend en entrée un texte en anglais et donne le domaine scientifique correspondant dans le plan de classement utilisé par la base HAL (https://aurehal.archives-ouvertes.fr/domain/index). Comme toute méthode par apprentissage il faut qu’il y ait un minimum de texte pour que le… Lire plus

Enrichissement par DOI

Publié lecalendar

Ce service permet de récupérer les métadonnées d’un article scientifique à partir d’un ou plusieurs DOI.  Ce service ne propose aucun traitement particulier sur les données, il se contente d’interroger les différentes bases distantes de la même manière. Par exemple, il peut servir dans Lodex à la récupération de données… Lire plus

Associer un terme au vocabulaire des communes de France

Publié lecalendar

La plateforme Loterre propose des vocabulaires ou terminologies pour différents domaines scientifiques. Autour d’un concept, Loterre propose plusieurs verbalisations et différents liens vers des bases de références. Le vocabulaire  Communes de France propose pour chaque communes en France des concepts regroupant informations géographiques, variantes syntaxiques, acronymes, et formes normalisées. Lire plus

Normaliser un texte ou un terme

Publié lecalendar

Ce service permet de normaliser un texte, un terme ou plus généralement une chaîne de caractères. Ici la normalisation sous-entend supprimer les caractères accentuées, supprimer les caractères spéciaux, supprimer les blancs inutiles et redondants pour in fine mettre tous les caractères restant en majuscule. Ce service très simple peut servir… Lire plus

Boite à outils NLP_tools

Publié lecalendar

La bibliothèque d’outils pour le traitement NLP-tools (construite au dessus de https://spacy.io/) contient des composants qui vous permettent d’ effectuer des traitements lexicaux, morphologiques et syntaxiques de base sur des corpus textuels . Les composants disponibles vous permettent  de traitements de : Stemming [engine = stemmer], en français et… Lire plus

Associer un terme au vocabulaire Pays et Subdivision

Publié lecalendar

La plateforme Loterre propose des vocabulaires ou terminologies pour différents domaines scientifiques. Autour d’un concept, Loterre propose plusieurs verbalisations et différents liens vers des bases de références. Le vocabulaire  Pays et Subdivision de Loterre propose pour chaque pays et région française des concepts regroupant informations géographiques, variantes syntaxiques, acronymes,… Lire plus

Verbalisation des préfixes de DOI

Publié lecalendar

Les identifiants de type DOI sont composés de plusieurs parties : Dans le monde de la publication scientifique, le préfixe est un identifiant qui correspond généralement au publisher d’un article. Crossref stocke toutes les informations liées au DOI. Le webservice  permet d’interroger la base de données Crossref pour verbaliser… Lire plus

Extraction de termes d’un texte via Teeft

Publié lecalendar

Le service web teeft extrait les termes les plus pertinents d’un texte en anglais ou en français. Il permet d’avoir une idée de ce dont parle le texte. Idéalement, le texte doit contenir plusieurs paragraphes. Par défaut teeft extrait 5 termes, sauf si la variable ‘nb’ est utilisée. Variante Pour… Lire plus

Découpage d’une adresse

Publié lecalendar

Une adresse postale est souvent présentée sous forme textuelle, exemple: 2, rue Jean Zay 54519 Vandœuvre-lès-Nancy France Cependant, une adresse est composée de plusieurs informations sémantiquement différentes comme le pays, la rue ou le code postal. Pour l’exemple précédent: NomValeur nom de la rueJean Zay Code postal54519… Lire plus

Détection de la langue d’un texte

Publié lecalendar

Le web-service detect-lang détecte la langue d’un document texte et renvoie le code langue et la probabilité correspondante. Dans le cas où le résultat est trop incertain, le service renverra unknown. À noter que la détection de langue a besoin d’un texte suffisamment long pour fonctionner correctement. Avec un nombre… Lire plus

Attribution d’identifiants ARK

Publié lecalendar

Les identifiants ARK sont des identifiants pérennes indépendants et à gestion décentralisée.  Chaque autorité nomante doit garantir l’unicité et la pérennité des identifiants qu’elle génère. L’Inist-CNRS utilise les identifiants ARK pour différents types de ressources numériques (archive de documents, concepts terminologiques, etc.). Pour attribuer des identifiants et conserver un historique… Lire plus

Ajout d’identifiant(s) RNSR à une adresse

Publié lecalendar

Le RNSR, Référentiel National des Structures de Recherche (français), référence les structures de recherche publiques et privées au niveau national. Il est administré par le ministère chargé de la recherche. En particulier, il attribue à chaque structure de recherche un identifiant (par exemple 199213009E), et recense différents… Lire plus

Classification en domaines scientifiques

Publié lecalendar

Le web service de classification automatique, permet de classer des documents scientifiques en anglais dans le plan de classement Pascal (Sciences, Techniques et Médecine) ou Francis (Sciences Humaines et Sociales). Après traitement, chaque document possédera un domaine scientifique homogène, dans la mesure où les données de départ ont permis… Lire plus

De l’ontologie OntoTM à TM Tools Explorer

Publié lecalendar

  Nous avions relaté il y a quelques mois pourquoi et comment nous avions décidé de mettre sur pied une ontologie computationnelle à partir de la liste d’outils de fouille de textes élaborée au décours du projet VisaTM. Nous poursuivions l’idée, au-delà de la mise à disposition d’une ontologie… Lire plus

La conférence WikiCite 2020

Publié lecalendar

Les 26 et 28 octobre 2020 a eu lieu la conférence virtuelle WikiCite, coïncidant avec les célébrations du 8ème anniversaire de Wikidata. WikiCite est une initiative pour développer les citations ouvertes et les données bibliographiques liées, en créant une base de données basée sur Wikidata.Cette année WikiCite c’était… Lire plus

Une ontologie des outils de fouille de textes

Publié lecalendar

Au cours du projet VisaTM, nous avions produit une liste de trois cents outils spécialisés dans le traitement automatique du langage et la fouille de textes. L’idée générale de ce document était de disposer d’un premier panorama des applications disponibles. La description de chaque outil contenait les informations… Lire plus

Le text-mining, source de connaissance de Florilège, la base de données intégrative d’habitats et de phénotypes microbiens

Publié lecalendar

  Les équipes Bibliome et Migale de l’unité INRAE-MaIAGE en collaboration avec le projet ENovFood du métaprogramme MEM proposent le service en ligne Florilège destiné aux microbiologistes pour l’étude des phénotypes et habitats microbiens. Florilège donne accès à un ensemble d’informations extraites, structurées, agrégées et… Lire plus

La fouille de textes aujourd’hui… et demain ? résultats de l’enquête

Publié lecalendar

Vous avez été nombreux (300) à répondre à notre appel à participation à une enquête destinée à qualifier les pratiques autour de la fouille de textes et nous vous en remercions. Notre analyse des réponses a été intégrée dans le livrable Analyse des besoins du projet Visa TM et vous trouverez également une version plus détaillée ici. Lire plus

Compte rendu de l’atelier : Compétences et profils nécessaires, quelles formations ?

Publié lecalendar

Restitution par Joanna Janik (Chargée de projets formations IST à la DIST-CNRS et copilote du Collège Compétences et formations du Comité pour la Science Ouverte) La fouille de textes et de données ne constitue pas seulement un défi technologique ou juridique mais également un défi humain pour amener les différents… Lire plus

Compte rendu de l’atelier : Futurs utilisateurs / futures utilisations

Publié lecalendar

Restitution par Sylvain Massip (Opscidia) 1.  Quelles tâches pour un robot en 2050 ? Nous avons commencé par nous projeter en 2050 pour imaginer quelles pourraient être les utilisations idéales de la fouille de textes. Les participants ont émis beaucoup d’idées qui rentraient globalement dans quatre catégories : Des interfaces homme-Machine évoluées,… Lire plus

Compte rendu de l’atelier : Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services

Publié lecalendar

Objectif Réfléchir et suggérer des idées, identifier les freins et les modes opératoires pour activer la valorisation et faciliter le transfert des produits de la recherche en fouille de textes grâce à une e-infrastructure dédiée. Modalité « World café » La salle comporte trois tables, chacune est dédiée à un… Lire plus

Compte rendu de l’atelier : quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service à base de TDM ?

Publié lecalendar

L’atelier “Acteurs” a rassemblé 9 personnes, mêlant professionnels IST (Information Scientifique et Technique), cadres de la recherche, chercheurs/ingénieurs (en Traitement Automatique des Langues et non Traitement Automatique des Langues) et enseignants-chercheurs.  L’objectif était de cartographier les acteurs à mobiliser dans le cadre de la mise en place d’un service ou… Lire plus

Les ateliers de Visa TM Day

Publié lecalendar

Les ateliers prospectifs autour de “quelle infrastructure de service de fouille de textes pour demain” ont permis de faire émerger une analyse partagée sur ce sujet à travers 4 thématiques : Quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service de fouille de textes intégré dans… Lire plus

Diffusion des supports de Visa TM Day

Publié lecalendar

Les présentations et restitutions de la journée Visa TM Day sont mis à votre disposition en téléchargement ci-dessous. Des applications scientifiques d’extraction de l’information  « Fouille de texte sur les réseaux sociaux pour la pharmacovigilance »  par Cyril Grouin, LIMSI (CNRS), France Présentation de Cyril Grouin licence CC-BY-NC-SA… Lire plus

Galaxy server for complex TDM analysis : part 5

Publié lecalendar

Machine Learning in Galaxy TDM is mostly based on statistical, machine Learning and artificial intelligence methods, algorithms and technologies. Several projects provide these tools in open access. LAPPS Grid https://www.lappsgrid.org/ https://static.sched.com/hosted_files/gcc2019/90/S-6-Out-3LAPPS%20GCC%202019%20-%20Alex.pdf Vassar College, Poughkeepsie, NY USA Johns Hopkins University, Baltimore, MD, USA LAPPS Grid – An open, interoperable… Lire plus

Galaxy server for complex TDM analysis : part 4

Publié lecalendar

Galaxy on HPC Knowing that more and more often the data analysis request a lot of computational power, one of the challenges today is to be able to execute Galaxy on High Performance Computing clusters (HPC); several projects in different countries are running to solve this problem and to provide… Lire plus

Mutualisation des efforts dans la mise en oeuvre de portails de ressources sémantiques

Publié lecalendar

Les principes de FAIR ont établi l’importance d’utiliser des vocabulaires ou des ontologies standard pour décrire les données FAIR et faciliter l’interopérabilité et la réutilisation. Cependant, au cours des dernières années, nous avons assisté à une explosion du nombre de ressources sémantiques de sorte qu’il devient obligatoire d’offrir des portails… Lire plus

Visa TM day vendredi 15 novembre : découvrez le programme

Publié lecalendar

Rendez-vous le 15 novembre 2019 à Paris pour discuter des perspectives concrètes d’une solution de services en fouille de textes. Les inscriptions sont ouvertes jusqu’au 2 novembre. Cette rencontre promet un programme riche et diversifié. Sylvie Rousset, Directrice de la DIST CNRS ouvrira la journée. La matinée… Lire plus

Le text mining pour la recherche en microbiologie – un exemple

Publié lecalendar

Alexandra, la biologiste et Marie, la bioinformaticienne utilisent le text mining pour trouver des informations dans l’abondante masse de publications en microbiologie. Alexandra cherche si une bactérie déjà étudiée pourrait être utilisée pour un nouveau produit fermenté, de yaourt et de concombre. La réponse en vidéo et en trois clics. Lire plus

Galaxy server for complex TDM analysis : part 3

Publié lecalendar

Galaxy Cloud Cloud technologies are often needed in the case of large datasets or computationally intense applications. Cloud services are able to optimize resources between large numbers of users. Several projects are running to facilitate the execution of Galaxy on clouds. GalaxyCloudRunner https://galaxycloudrunner.readthedocs.io/​ University of Melbourne, Melbourne, VIC, AUS… Lire plus

Galaxy server for complex TDM analysis : Part 2

Publié lecalendar

Galaxy for TDM, latest achievements For several years Galaxy project has been constantly growing and evolving. Having an active community, the new projects are running and new features are continuing to be developed. The dedicated series of blog posts will provide a short overview of the latest and most interesting… Lire plus

Galaxy server for complex TDM analysis – Part 1

Publié lecalendar

General overview Galaxy is an open source, web-based platform for data-intensive analysis. Founded for biomedical research, today galaxy can also be applied in other fields. In Visa-TM, we are looking to implement it in Text and Data Mining (TDM) area. There are several online Galaxy platforms available for free (UseGalaxy.eu… Lire plus

Visa TM Day

Publié lecalendar

Le projet Visa TM et le Comité pour la Science Ouverte sont heureux de vous convier à Visa TM Day : Vers une infrastructure de services avancés en text-mining le vendredi 15 novembre de 9h à 17h au Ministère de l’Enseignement supérieur, de la Recherche et de L’innovation. En… Lire plus

Lancement du projet ANR D2KAB

Publié lecalendar

En juin 2019, deux des acteurs de Visa TM (le LIRMM et MaIAGE) ont respectivement organisé et participé au lancement du projet ANR D2KAB (Des Données aux Connaissances en Agronomie et Biodiversité).  D2KAB ambitionne de mettre en place les processus permettant de transformer les données d’agronomie et de biodiversité… Lire plus

Critères de sélection d’outils de fouille de textes

Publié lecalendar

Le travail sur les critères de sélection doit permettre de caractériser les outils de fouille de textes et de données afin de mieux cibler et sélectionner ceux qui sont les plus adaptés pour VisaTM. Il consiste à définir une liste de propriétés pertinentes lorsqu'on collecte des informations sur les outils lors d'une campagne de sélection et d'intégration d'outils. Les critères sont établis à partir de critères déjà utilisés dans OMTD ayant été sélectionnés lors d'un appel à proposition d'outils. Ils sont aussi établis sur la base des expériences sur le processus d'intégration et d'utilisation des outils de la plateforme OpenMinTeD. Les critères retenus s'attachent à différents types d'aspects (stratégique, méthodologique, technique, fonctionnel, opérationnel, prévisionnel). Ils s'accompagnent d'exemples de questions permettant de les renseigner. Le document contenant la liste des critères est joint. Voici quelques exemples : Lire plus

Recensement d’outils de fouille de textes [Mise à jour]

Publié lecalendar

Dans le cadre du volet Étude du projet VisaTM, nous avons réalisé un recensement d'outils de fouille de textes. Le premier objectif de ce travail est de faire le point sur les moyens logiciels issus de l'Intelligence artificielle, du Traitement automatique du langage naturel et des Statistiques disponibles pour la découverte de connaissances à partir du traitement informatique de corpus textuels. Le second objectif est de disposer d'un référentiel d'outils pour l'enrichissement de la plateforme de fouille de textes dont le projet VisaTM évalue la faisabilité. Lire plus

Une suite à OpenMinTeD ?

Publié lecalendar

Les équipes de l'Inist-CNRS et de  l'INRA-MaIAGE se réunissent à nouveau autour de ARC (Athena Research and Innovation Centre) pour répondre à l'appel à proposition intitulé "INFRAEOSC-02-2019: Prototyping new innovative services" dans le cadre du programme européen pour la recherche et l’innovation « HORIZON 2020 ». Lire plus

Enquête VisaTM : la fouille de textes aujourd’hui… et demain?

Publié lecalendar

Afin de qualifier au mieux, dans le cadre du projet VisaTM, les pratiques actuelles autour de la fouille de textes et à identifier les verrous et les moyens de les lever pour sa mise en œuvre au service des chercheurs, nous avons élaboré un questionnaire destiné à l'ensemble des acteurs de l'enseignement supérieur et de la recherche. Lire plus

Évaluation de la clusterisation avec Neurodoc du corpus Géosciences

Publié lecalendar

L'application pilote développée à l’Inist dans le cadre de Visa TM est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle sera déployée sous forme de service en ligne sur OpenMinTeD. Elle permettra l’exploration d’un corpus d’articles scientifiques en texte intégral issu du réservoir ISTEX. Cette exploration inclut, entre autres, une cartographie des domaines scientifiques représentés dans le corpus, obtenue par une méthode de clusterisation (classification automatique non supervisée). Plusieurs méthodes de clusterisation seront étudiées dans cette étude. Cet article porte sur l'évaluation d'une clusterisation réalisée avec l'outil Neurodoc sur le corpus "géosciences" (voir Sélection du corpus "géosciences" dans ISTEX). Lire plus

VisaTM dans le cadre de Istex Tour

Publié lecalendar

Depuis septembre, le projet VisaTM s'est joint au Istex tour, un tour de France en 20 dates, pour promouvoir  l'utilisation du text mining. Ces rencontres aux quatre coins de la France ont été l'occasion pour l'équipe VisaTM non seulement, d'expliquer les concepts, de sensibiliser le public aux enjeux du TDM et de présenter les grandes lignes du projet, mais aussi  d'échanger avec de futurs utilisateurs de services de text mining. Lire plus

L’architecture de services OMTD

Publié lecalendar

L’architecture logicielle de la plateforme de TDM (Text and Data Mining) OpenMinTeD (OMTD) s’articule autour de trois services principaux. Le service Registry (catalogue) prend en charge le stockage, la navigation, le téléchargement, la recherche et la gestion de ressources comme les publications scientifiques, les composants de traitement (par exemple un étiqueteur morpho-syntaxique) et les ressources de la langue (lexiques, thesauri). Ces ressources sont téléchargées, puis enregistrées dans OpenMinTeD à travers un certain nombre de protocoles tels que Maven ou docker. Elles sont rigoureusement documentées grâce à un système riche de descriptions de métadonnées pour être réutilisables. Le service d’édition de Workflow assiste l’utilisateur à la création de workflows interopérables à base de composants TDM. Ces composants sont exécutés par le service de Workflows dans une infrastructure Cloud (ou sur une machine locale). Au travers du service d’édition d’annotation, l’utilisateur a la possibilité de créer des ensembles de données en annotant des textes, données qui peuvent ensuite  être utilisées dans des workflows, dans un but d'évaluation par exemple. Lire plus

AgroPortal, source de ressources sémantiques pour OpenMinTeD

Publié lecalendar

Les ontologies, thésaurus, terminologies et vocabulaires sont des types de ressources sémantiques indispensables dans les processus de fouille de texte et de données. AgroPortal est un portail de ressources sémantiques pour l’agronomie/l’agriculture, l’alimentation, les sciences des plantes et la biodiversité. Il est basé sur la technologie BioPortal développée… Lire plus