Siganalogies : des millions d'analogies morphologiques dans plus de 80 langues
Le jeu de données Siganalogies a été développé dans le cadre d’un projet de recherche sur le traitement automatique des analogies en morphologie, en particulier en utilisant des approches d'apprentissage profond. En effet, la morphologie est idéale pour l’étude d’analogies en linguistique (entres autres grâce à la présence de régularités et d'irrégularités), et des jeux de données tels que Sigmorphon offrent une collection de transformations morphologiques dans de nombreuses langues. Cette diversité permet d'analyser la performance des approches de traitement automatique d’analogies avec une grande variété de données de même nature.
Siganalogies (pour "Analogies dans Sigmorphon") contient des analogies entre quatre mots A, B, C et D, au niveau de leur morphologie (prefix, suffix, ...) dans 82 langues.
Une analogie s'écrit "A : B :: C : D", ce qui signifie "la relation de A vers B est la même que celle de C vers D".
En morphologie, ces relations sont souvent des relations de conjugaison, d'accord ou de déclinaison.
Par exemple, en français, "rechercher : rechercheras :: accorder : accorderas" est une analogie dans laquelle la relation est "la conjugaison à la 2ème personne du singulier du futur de l'indicatif".
L'objectif de Siganalogies est de fournir un grand nombre d'analogies dans de nombreuses langues, de façon standardisée.
A partir de Siganalogies, plusieurs approches d'apprentissage profond ont été développées pour la manipulation d'analogies en morphologie [1, 2, 3].
Siganalogies est constitué à partir de trois jeux de données : Sigmorphon2016 (10 langues), Sigmorphon2019 (44 langues avec beaucoup et 44 avec peu d'analogies) et Japanese Bigger Analogy Test Set (uniquement du japonais).
Certaines des 99 langues apparaissent dans plusieurs jeux de données, pour un total de 82 langues différentes.
Dans Sigmorphon2016 et Sigmorphon2019, des paires de mots liés par une transformation morphologique sont disponibles dans chaque langue, par exemple "rechercher rechercheras V;IND;FUT;2;SG" (où "V;IND;FUT;2;SG" représente la conjugaison à la 2ème personne du singulier du futur de l'indicatif).
Les données du Japanese Bigger Analogy Test Set on été transformées dans ce même format pour en faciliter la manipulation.
Si deux paires correspondent à la même transformation morphologique, il est possible de créer une analogie : "rechercher rechercheras V;IND;FUT;2;SG" et "accorder accorderas V;IND;FUT;2;SG" nous permettent de créer "rechercher : rechercheras :: accorder : accorderas".
Le dataset Sigmorphon contient :
- les données d'origine de Sigmorphon2016, Sigmorphon2019 et Japanese Bigger Analogy Test Set ;
- le code Python pour extraire les analogies à partir des jeux de données source et pour les manipuler ;
- les analogies pré-calculées dans la majorité des langues du dataset ;
- quelques fonctions utilitaires liées à l'utilisation des analogies.
Références :
[1] Safa Alsaidi, Amandine Decker, Puthineath Lay, Esteban Marquer, Pierre-Alexandre Murena, Miguel Couceiro, A Neural Approach for Detecting Morphological Analogies. DSAA 2021: 1-10. https://hal.inria.fr/hal-03313556
[2] Esteban Marquer, Safa Alsaidi, Amandine Decker, Pierre-Alexandre Murena, Miguel Couceiro. A Deep Learning Approach to Solving Morphological Analogies. To appear in ICCBR 2022. https://hal.inria.fr/hal-03660625
[3] Kevin Chan, Shane Peter Kaszefski-Yaschuk, Camille Saran, Esteban Marquer, Miguel Couceiro. Solving Morphological Analogies Through Generation. To appear in IARML@IJCAI 2022. https://hal.inria.fr/hal-03674913
Liens :
Dataset : https://dorel.univ-lorraine.fr/dataset.xhtml?persistentId=doi:10.12763/MLCFIE
Descriptif des données : https://dorel.univ-lorraine.fr/file.xhtml?persistentId=doi:10.12763/MLCFIE/CJLSWX
Code le plus à jour : https://github.com/EMarquer/siganalogies