Information spatiale et Intelligence Artificielle pour analyser les trajectoires des acteurs du système alimentaire d’un territoire à partir d’articles de presse en français sur les magasins de producteurs

Information spatiale et Intelligence Artificielle pour analyser les trajectoires des acteurs du système alimentaire d’un territoire à partir d’articles de presse en français sur les magasins de producteurs
Mis à jour : 19/02/2026

Pour suivre les dynamiques des systèmes alimentaires territorialisés, cette collection fournit un corpus textuel original, en français, permettant l’entraînement et/ou l’évaluation de modèles d’IA dédiée à la reconnaissance d’entités nommées dans les textes.

La collection GeoTextAI4SAT regroupe trois jeux de données complémentaires permettant l’entraînement et l’évaluation de modèles de reconnaissance d’entités nommées.

  • Un premier jeu de données (https://doi.org/10.57745/ISUT2Q) contient les 11 538 articles de presse publiés entre 1994 et 2024 et sur lesquels a été réalisé le travail d’annotations.
  • Un deuxième jeu de données (https://doi.org/10.57745/WX6PEJ) contient les annotations réalisées de façon automatique et manuelle sur des sous-ensembles des 6 508 articles. Ces annotations ont été réalisées en utilisant l’accord entre deux modèles agnostiques génériques GliNER (Zaratiana et al., 2024) et NuNER (Bogdanov et al., 2024).
  • Enfin, un troisième jeu de données (https://doi.org/10.57745/B3THLZ) contient les annotations réalisées manuellement par un groupe d’étudiants experts du domaine sur un sous-ensemble de 92 articles répartis entre 1997 et 2011.

Cette collection a été produite dans le cadre du projet GeoTextAI4SAT qui a pour objectif d'analyser les dynamiques des acteurs des systèmes alimentaires territoriaux (SAT), avec un focus particulier sur les magasins de producteurs et leur environnement, en combinant modèles de langue et graphes de connaissances. Mené en collaboration par les UMR Innovation, TETIS et IRIT, ce projet a bénéficié du soutien du défi clef O3T, du projet pepr Plat4terfood (ANR-23-PESA-0005) et du projet européen AI4AGRI.

Ces jeux de données contiennent des reproductions numériques d’œuvres protégées par le droit d’auteur, leur collecte et analyse a été réalisée dans le cadre de l'exception de fouille de texte à des fins de recherche scientifique (article L112-5-3 du Code de la propriété intellectuelle)

THIAM, Pape Ibrahima; AKERMANN, Grégori; CHASSERAY, Yohann; MOTHE, Josiane; PRADERE, Manon; ROCHE, Mathieu; TEISSEIRE, Maguelonne, 2026, "Données annotées automatiquement et consolidées des acteurs des circuits courts des systèmes alimentaires territoriaux", https://doi.org/10.57745/WX6PEJ, Recherche Data Gouv, V2