Link Search Menu Expand Document

Ateliers

Table des matières

Le groupe de travail « Lemmes » s’est donné pour objectif initial l’aide au développement des outils de lemmatisation des langues médiévales (latin, français, anglais…) et l’incitation à la diffusion des corpus textuels lemmatisés. En effet, encore très peu connue et pratiquée par la communauté des historiens médiévistes, cette opération fondamentale à toute approche des grands corpus est pourtant indispensable dans le cas des langues médiévales très flexionnées et à très grande variation orthographique. Dans ce cadre, quatre ateliers « d’initiation à la lemmatisation des textes médiévaux » ont eu lieu entre 2017 et 2019.

Atelier 1 (07.11.2017)

Un premier atelier de travail a été organisé en novembre 2017. Il visait à faire le bilan en commun des outils existants, des points d’achoppement des applications et des orientations et actions qui seront développées par le groupe. Il a réuni une vingtaine de participants, chercheurs et doctorants, historiens, linguistes et programmeurs.

Après la présentation et la discussion de différents « lemmatiseurs » : Collatinus (Y. Ouvrard, Ph. Verkerk), Pandora (J.-B. Camps), CompHistSem (T. Geelhaar), OMNIA (R. Alexandre), PALM (M. Aouini, C. Fletcher, A. Mairey), on a pu constater que, quels que soient leurs objectifs ou leurs structures (lexique plus entrainement ; réseau de neurones), tous les outils (tagueurs et/ou paramètres) présentés sont estimés performants à environ 90% (±5%). Ce sont donc les 5-15% d’erreurs qui demandent réflexion. En général, les applications achoppent là où se trouvent les problèmes historiques (S. Torres). La reconnaissance des noms propres (personnes et lieux) figure parmi les erreurs récurrentes d’étiquetage et donc le groupe poursuivra ses travaux autour de ce point.

L’autre question soulevée est l’absence d’évaluation systématique et comparative des tagueurs (N. Perreaux). Il a été décidé de créer un corpus de référence, structuré, avec un échantillon de différents types de texte (en latin, français et anglais médiévaux) pour tester les outils avec le même corpus afin d’obtenir une évaluation raisonnée. L’objectif serait de concevoir, à partir de ces expériences, un «méta-tagueur» (T. Geelhaar) combinant les avantages des solutions proposées par chaque outil. Pour ce faire les membres du groupe partageront les différents paramètres et ressources déjà existants. Un espace de partage de fichiers pour le groupe a été ouvert dans Sharedocs du TGIR Huma-Num.

Télécharger les présentations et le compte-rendu de l’Atelier 1


Atelier 2 (05.06.2018)

L’atelier 2 s’est articulé en trois moments, d’abord la présentation de deux recherches récentes sur les entités nommées : « Approche multi-niveaux pour la reconnaissance des entités nommées en Moyen Français », par Mourad Aouini (CNRS - CLT), et « La récupération automatique des entités nommées dans les chartes médiolatines. Modélisation et perspectives d’utilisation », par Sergio Torres (UVSQ - DYPAC). Effectivement, l’une des principales difficultés de lemmatisation des sources médiévales se trouve dans la reconnaissance des noms de personne et de lieux, les recherches sur les entités nommées ouvrant une série de perspectives à leur traitement particulier.

Ensuite, en complément des présentations de projets et outils de lemmatisation de l’Atelier 1 (Collatinus, CompHistSem, Omnia, Pandora, Palm), le projet précurseur « Opera latina » (LASLA), a été présenté par Dominique Longrée et Margherita Fantoli (Université de Liège). Enfin, des discussions serrées ont eu lieu sur la mise en œuvre de l’analyse comparée des différents paramètres et lemmatiseurs des langues médiévales. Un consensus s’est établi autour de la nécessité d’un corpus lemmatisé (complètement, jusqu’au produit final) et vérifié (éventuellement par plusieurs personnes différentes), pour pouvoir évaluer sérieusement les différents outils, de même que le besoin de la description des données de chaque outil (jeux d’étiquettes, formats…) en vue d’aboutir à un format commun.

Télécharger le compte-rendu et les documents liés à l’Atelier 2


Atelier 3 (10.12.2018)

L’atelier 3 a visé à continuer à développer les actions énumérées ci-dessus (évaluation, diffusion, formation). Cela a été l’occasion pour les différents porteurs de projets/outils d’échanger au sujet de leurs paramètres techniques et leurs corpus. L’expérience concrète de lemmatisation du corpus multilingue des inscriptions bourguignonnes médiévales a été présentée et discutée, afin d’aider à établir un modèle d’analyse. Les avancées récentes des outils s’ayant développé des paramètres pour le latin médiéval ont été également présentées (Collatinus, Hydra, PALM).

Télécharger le compte-rendu et les documents liés à l’Atelier 3


Atelier 4 (17.06.2019)

Lors de l’atelier 4, en plus d’une introduction historiographique et théorique, la découverte de quelques outils-clé à partir d’exercices pratiques a été proposée aux participants. Prévu initialement pour 15, l’atelier a fini par en accueillir 21 participants, étant donné l’intérêt suscité par cette formation. L’équipe de formateurs comptait 8 intervenants et a mis à la disposition des participants tout le matériel pédagogique utilisé (guides d’utilisation, corpus prétraités, exempliers, diaporamas, etc.). Les profils très divers des inscrits, – des étudiants de master aux enseignants-chercheurs et chercheurs confirmés, en passant par des doctorants, post-doctorants et ingénieurs – montrent que les besoins en la matière concernent un public qui ne se limite pas aux seuls médiévistes « universitaires », historiens et linguistes, mais aussi aux responsables commerciaux des plateformes d’édition numérique qui peuvent avoir affaire à des textes médiévaux. Pour la suite des actions du groupe, la lemmatisation est envisagée comme partie intégrante des formations organisées par COSME², qui insèrent ainsi cette opération fondamentale dans un processus plus large qui va de la constitution d’un corpus jusqu’à son exploitation statistique.

Télécharger le compte-rendu et les documents liés à l’Atelier 4