chemTag - Extraction d’entités nommées en chimie
Ce web service détecte, dans un texte en anglais, les entités nommées en chimie et les désambiguïse.
Les deux champs en sortie sont :
– chemical : correspond à l’entité nommée de chimie extraite.
– chemical_disambiguisate : correspond au nom IUPAC issu de PubChem (pour l’entité extraite).
Pour l’extraction, le modèle utilisé par ce web service, “bio-ner”, est disponible à ce lien huggingface.
Aucun fine-tuning n’a été opéré : nous mettons simplement le modèle à disposition via un web service.
Pour la désambiguisation, nous utilisons un référentiel issu de PubChem afin de récupérer le nom IUPAC associé à l’entité trouvée. Le référentiel complet peut être trouvé à ce lien.
Le code git pour fine-tuner le modèle est disponible à ce lien.
Le modèle possède une f-mesure de 0.92 ± 0.02.
Quant à la désambiguïsation, nous utilisons une table de correspondance issue de la base PubChem : les résultats dépendent de l’exhaustivité des synonymes présents sur PubChem.
Précaution : Le web service fonctionne uniquement sur du texte anglais.
- Article explicitant la méthodologie pour obtenir le modèle bio-ner : Alonso Casero, Álvaro (2021). Named entity recognition and normalization in biomedical literature: a practical case in SARS-CoV-2 literature. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM)
- Le modèle bio-ner est obtenu après fine-tuning du modèle bioBERT : Data and text mining. BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Extraction d’entités géographiques
Extraction d’entités nommées de maladies
[
{
"id": 1,
"value": "This is three chemical named entities: methanol, 2-propanol, or CO2."
},
{
"id": 2,
"value": "Single atoms of elements are not molecules. A single oxygen, O, is not a molecule. When oxygen bonds to itself (e.g., O3) or to another element (e.g., carbon dioxide or CO2), molecules are formed"
},
{
"id": 3,
"value": "This sentence does not contain any chemical named entities."
}
]
[
{
"id": 1,
"value": {
"chemical": [
"methanol",
"2-propanol",
"CO2"
],
"chemical_disambiguisate": [
"methanol",
"propan-2-ol"
]
}
},
{
"id": 2,
"value": {
"chemical": [
"oxygen",
"O",
"O3",
"carbon dioxide",
"CO2"
],
"chemical_disambiguisate": [
"molecular oxygen",
"ozone"
]
}
},
{
"id": 3,
"value": {
"chemical": [],
"chemical_disambiguisate": []
}
}
]