L’attribution de domaine(s) scientifique(s) est une activité nécessaire à la caractérisation et donc à l’identification des contenus des bibliothèques numériques.
Les méthodes actuelles basées sur l’apprentissage supervisé permettent de tirer parti de fonds documentaires pour lesquels il existe des données enrichies. 

L’Inist-CNRS qui a publié des bases de données bibliographiques (bases Pascal et Francis) pendant de nombreuses années dispose de ce type de données analysées de façon semi-automatique par des documentalistes spécialisés dans chacun des domaines de la science.

Dans le souci de mettre à disposition des services à forte valeur ajoutée appliqués aux réservoirs de publications scientifiques, l’INIST-CNRS a entrepris de bâtir et de proposer un web service de classification de textes en domaine(s) scientifique(s) à base d’apprentissage.

Le domains-classifier applique une démarche supervisée en apprenant à prédire des domaines en s’appuyant sur un corpus de documents contenant les catégories à prédire à savoir un code domaine du plan de classement utilisé à l’Inist-CNRS (exemple, “002A05” représente l’étiquette du domaine “microbiologie”).

L’objectif est d’apprendre et capturer dans un modèle la « relation » entre des mots et des codes de classement pour pouvoir prédire ces codes de classement sur de nouveaux textes Au sein d’un modèle, les mots sont représentés sous la forme de vecteurs denses de type embeddings (plongement de mots) construits à partir de la  bibliothèque d’apprentissage de représentation des mots et de classification de textes FastText (https://fasttext.cc/).   

Figure 1  : le processus d’apprentissage

 

De façon théorique, l’apprentissage cherche à déterminer une équation mathématique qui permette de déduire Y à partir de paramètres Xn (1 à n).  Il dispose pour cela d’exemples où Y existe, fait une prédiction en fixant Xn, mesure son erreur et adapte ses paramètres en fonction de l’ erreur. Le cycle est répété tant que l’approximation la plus juste n’est pas atteinte (i.e. la moins erronée).

Expérimentation

L’originalité de l’approche tient au fait qu’elle met en œuvre non pas un mais plusieurs modèles. Ces modèles sont construits par entraînement sur une série de corpus étiquetés chacun extraits sur la base de codes domaines. Chaque nœud de l’arborescence du plan de classement est associé à un modèle qui est chargé de prédire le sous-domaine du niveau inférieur.

Figure 2: fonctionnement en apprentissage et en prédiction

Le corpus d’entraînement utilisé contient des notices bibliographiques (environ 5M de titres et résumés en langue anglaise)  extraites de la base de données Pascal/Francis. (https://pascal-francis.inist.fr/cms/?lang=fr). Dans le détail, on compte 420K notices issues de la base SHS Francis et 4.9M issues de la base sciences exactes et médecine Pascal.

Les domaines à prédire sont issus d’un plan de classement documentaire, structure de connaissance qui présente une organisation hiérarchique en domaines et sous- domaines scientifiques. Les plans de classement utilisés pour la mise au point sont ceux des bases Pascal/Francis. (https://pascal-francis.inist.fr/vibad/index.php?action=classificationList&lang=fr).

Figure 3 : Etapes de construction d’un modèle

L’expérience commence classiquement par une étape de préparation de corpus comme le montre la figure 3. Le corpus initial est séparé en corpus d’entraînement et corpus de test selon une proportion de 30/70. Des étapes traditionnelles telles que la suppression de stopword et la POStag / Lemmatisation sont appliquées. Les résultats de cette dernière phase effectuée avec SpaCy (https://spacy.io/) permettent de réduire le texte aux seuls lemmes des Noms et Adjectifs.  Des étapes exploratoires ont permis de déterminer que cet enchaînement de prétraitements fournissait les meilleurs résultats pour la tâche de classification dans notre cas.Le corpus principal est ensuite scindé en sous-corpus pour produire l’ensemble des modèles selon les codes de classement tronqués suivant le niveau.
Enfin, chaque corpus est exploité pour entraîner un classifieur FastText. Là aussi, après plusieurs essais les paramètres ont été fixés suivant le tableau ci-dessous. 

Param dim lr ws epoch wordNgrams  loss cutoff
Value 100 0.9 5 20 3 softmax 200000

 

Figure 4 : paramètres d’apprentissage fastText

Dans notre cas, la profondeur du plan de classement (arborescence de code) fédéré comprenant Pascal et Francis a été limitée à 3 niveaux ce qui a produit 69 modèles.

Une fois l’arborescence de codes décorée par les différents modèles, on peut prédire un code domaine pour un nouveau document. Le traitement d’un document à classer commence par l’analyse du contenu textuel puis la prédiction se fait par parcours descendant de l’arborescence de modèles. A chaque niveau, un code domaine (ie. un domaine) est prédit et le modèle correspondant à ce nouveau code est consulté. En fin de parcours, le système propose le code domaine le plus fin. Comme le montre la figure ci-dessus, La consultation du modèle du niveau 1 (001) permet de prédire le code plus fin du niveau 2 [001A à 001E] et ainsi de suite jusqu’au niveau 3 terminal.

Evaluation

Les résultats sont fournis pour les deux plans de classement Pascal et Francis c’est-à-dire au-delà de la 1er prédiction qui propose un code Pascal ou Francis.

Francis                                                                                                                                Pascal

La  précision, le rappel et la F-mesure sont calculés pour évaluer la pertinence des prédictions de domaines.

Chaque colonne donne les résultats par niveau (ie. profondeur) de prédiction si bien qu’un code domaine de niveau 1 ([001 ou 002.] dans Pascal est prédit avec une F-mesure de 0.96  (predict 0).

On remarque que les indicateurs de qualité baissent en fonction du niveau ce qui s’explique à la fois par des corpus d’apprentissage toujours plus petits et souvent des jeux d’étiquettes à prédire plus grands au fur et à mesure que l’on descend l’arborescence. Les prédictions de domaine semblent meilleures pour Pascal que pour Francis ce qui peut être lié à la taille des corpus d‘ apprentissage. 

Ce système de prédiction de domaines fait désormais partie de la gamme des Web Services développés par l’Inist-CNRS et disponible sur le site Objectif-TDM.

WS domains-classifier : https://services.istex.fr/2021/12/08/classification-en-domaines-scientifiques/

Git : https://gitbucket.inist.fr/tdm/web-services/tree/master/domains-classifier