genderDetect - Détection du genre de l’auteur
Ce web service retourne le genre d’un auteur ou d’une autrice à partir d’un prénom.
Les formats de prénoms pris en compte sont les suivants :
"prénom"
"prénom nom"
"prénom, nom"
Plusieurs sorties sont possibles :
- masculin : le prénom est masculin
- feminin : le prénom est féminin
- mixte_masculin : le prénom est mixte mais majoritairement porté par des hommes
- mixte_feminin : le prénom est mixte mais majoritairement porté par des femmes
- mixte : le prénom est mixte
- unknown : le prénom n’est pas dans nos données ou mal formé (ex: une initiale)
Notre liste “genre-prénom” est un mélange entre les données issues de la bibliothèque python gender-guesser et des données issues de la plateforme Kaggle :
- Gender-guesser : regroupe plus de 40000 prénoms internationaux avec le genre associé et
- Kaggle : regroupe les données des prénoms des bébés français et leur genre de 1900 à 2018 (INSEE)
Ces données ont été fusionnées dans un pré-traitement et enregistrées sous la forme d’un dictionnaire avec les prénoms en clé et les genres en valeurs :
{"Jean-Claude":"masculin", "Amke":"mixte_féminin", "Valentyne" : "unknown"}
Le genre d’un prénom peut être différent selon le pays. Ainsi nous avons fait le choix de sélectionner le genre le plus fréquent dans le monde.
Désambiguïsation d’auteurs via ORCID
Associer un identifiant ORCID à l’identifiant IDREF correspondant
[
{"id": "1", "value": "Valentyne, Dupont"},
{"id": "2", "value": "Amke"},
{"id": "3", "value": "Seong-Eun Park"},
{"id": "4", "value": "James A."}
]
[
{"id": "1", "value": "unknown"},
{"id": "2", "value": "mixte_feminin"},
{"id": "3", "value": "feminin"},
{"id": "4", "value": "masculin"}
]