Technique

Sélection d’un corpus « géosciences » dans ISTEX

Publié lecalendar

Ce travail a été mené dans le cadre du volet "application pilote" du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés. L'application pilote développée à l'Inist est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle repose sur l'analyse d'un corpus d'articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d'ISTEX, c'est le domaine des "géosciences" qui a été choisi en tant que domaine-test pour cette application pilote. Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d'autres domaines, en se fondant sur les classifications présentes dans ISTEX. Lire plus

Galaxy server for complex TDM analysis : part 5

Publié lecalendar

Machine Learning in Galaxy TDM is mostly based on statistical, machine Learning and artificial intelligence methods, algorithms and technologies. Several projects provide these tools in open access. LAPPS Grid https://www.lappsgrid.org/ https://static.sched.com/hosted_files/gcc2019/90/S-6-Out-3LAPPS%20GCC%202019%20-%20Alex.pdf Vassar College, Poughkeepsie, NY USA Johns Hopkins University, Baltimore, MD, USA LAPPS Grid – An open, interoperable… Lire plus

Galaxy server for complex TDM analysis : part 4

Publié lecalendar

Galaxy on HPC Knowing that more and more often the data analysis request a lot of computational power, one of the challenges today is to be able to execute Galaxy on High Performance Computing clusters (HPC); several projects in different countries are running to solve this problem and to provide… Lire plus

Galaxy server for complex TDM analysis : part 3

Publié lecalendar

Galaxy Cloud Cloud technologies are often needed in the case of large datasets or computationally intense applications. Cloud services are able to optimize resources between large numbers of users. Several projects are running to facilitate the execution of Galaxy on clouds. GalaxyCloudRunner https://galaxycloudrunner.readthedocs.io/​ University of Melbourne, Melbourne, VIC, AUS… Lire plus

Galaxy server for complex TDM analysis : Part 2

Publié lecalendar

Galaxy for TDM, latest achievements For several years Galaxy project has been constantly growing and evolving. Having an active community, the new projects are running and new features are continuing to be developed. The dedicated series of blog posts will provide a short overview of the latest and most interesting… Lire plus

Galaxy server for complex TDM analysis – Part 1

Publié lecalendar

General overview Galaxy is an open source, web-based platform for data-intensive analysis. Founded for biomedical research, today galaxy can also be applied in other fields. In Visa-TM, we are looking to implement it in Text and Data Mining (TDM) area. There are several online Galaxy platforms available for free (UseGalaxy.eu… Lire plus

Évaluation de la clusterisation avec Neurodoc du corpus Géosciences

Publié lecalendar

L'application pilote développée à l’Inist dans le cadre de Visa TM est intitulée "Fouille et exploration de données pour la constitution d’un corpus documenté". Elle sera déployée sous forme de service en ligne sur OpenMinTeD. Elle permettra l’exploration d’un corpus d’articles scientifiques en texte intégral issu du réservoir ISTEX. Cette exploration inclut, entre autres, une cartographie des domaines scientifiques représentés dans le corpus, obtenue par une méthode de clusterisation (classification automatique non supervisée). Plusieurs méthodes de clusterisation seront étudiées dans cette étude. Cet article porte sur l'évaluation d'une clusterisation réalisée avec l'outil Neurodoc sur le corpus "géosciences" (voir Sélection du corpus "géosciences" dans ISTEX). Lire plus