Ce travail a été mené dans le cadre du volet “application pilote” du projet Visa TM, qui vise à illustrer la facilité de déploiement du service et la qualité des résultats obtenus en réponse à quelques besoins identifiés.

L’application pilote développée à l’Inist est intitulée “Fouille et exploration de données pour la constitution d’un corpus documenté”. Elle repose sur l’analyse d’un corpus d’articles scientifiques en texte intégral issu du réservoir ISTEX. Après analyse du paysage scientifique local et de la couverture d’ISTEX, c’est le domaine des “géosciences” qui a été choisi en tant que domaine-test pour cette application pilote.
Cet article décrit la première étape du processus, qui a consisté à obtenir un corpus exploitable et représentatif du domaine. La démarche décrite ici pourrait être reproduite pour d’autres domaines, en se fondant sur les classifications présentes dans ISTEX.

Définition des géosciences

Selon l’École normale supérieure, les géosciences regroupent les sciences de la Planète (tectonique, océanographie, sciences du climat, biogéochimie, etc.). Ce domaine étant en étroite relation avec ceux qui traitent des aspects environnementaux, un corpus “environnement” a également été étudié dans ce travail, afin d’englober certains de ces aspects environnementaux.

Sélection des articles sur un critère thématique

Pour identifier les articles relevant des domaines “géosciences” et “environnement”, des extractions ont été réalisées sur le réservoir ISTEX, selon les critères suivants :

  • articles des revues auxquelles a été attribuée la catégorie Science-Metrix “earth & environmental sciences” ou les sous-catégories “environmental engineering” ou “geological & geomatics engineering” de la catégorie “engineering”
  • articles des revues auxquelles ont été attribuées l’une des catégories WoS suivantes : “geosciences, multidisciplinary”, “environmental sciences”, “geochemistry & geophysics”, “environmental studies”, “engineering, environmental”
  • articles auxquels a été attribué un code de classement “géosciences ” ou “pollution” (approximation pour “environnement”) par une méthode de classification supervisée entraînée sur des corpus indexés manuellement issus de la base de données bibliographiques Pascal.
revues Environnement articles Environnement revues Géosciences articles Géosciences
Science-Metrix 55 132 112 106 172 217
WoS 149 248 281 147 386 431
Pascal 2316 119 176 2333 132 780

 

En complément, ont été analysés :

  • une liste de 2185 revues comportant 85 274 références, qui correspond aux revues dont au moins un document possède un code Pascal “Sciences de la Terre”, mais qui n’étaient classées en Géosciences ni par Science-Metrix ni par WoS
  • une liste globale de 2333 revues comportant 130 333 références reprenant l’ensemble des revues avec une indication si la revue a également été repérée par Science-Metrix ou par WoS.
  • une liste de 3118 articles possédant un code Pascal « Sciences de la Terre » et un type de publication « monographies en série »

Ces listes ont ensuite été étudiées pour sélection par un expert scientifique du domaine des géosciences.
Au final, l’expert a retenu 337 revues, représentant 454 468 articles, et 414 monographies en séries. Au vu de cette liste de revues, l’expert considère que le corpus ainsi constitué est représentatif du domaine des géosciences.

Pour optimiser la qualité des résultats issus des traitements qui seront appliqués à ce corpus par les outils de l’application pilote Inist, les documents analysés doivent préférentiellement être disponibles dans ISTEX en format XML structuré. Pour constituer le corpus test final, une sélection fondée sur ce dernier critère a donc par la suite été réalisée au sein des revues et articles retenus par l’expert.