Groupe de travail «Lemmes»
Cet espace est dédié aux activités du groupe de travail “Lemmes” du consortium COSME² (Consortium Sources Médiévales 2).
L’un des changements importants dans la recherche en histoire médiévale, produit par la multiplication des numérisations des textes médiévaux, est la possibilité de travailler sur des très larges corpus, d’y appliquer les méthodes statistiques et l’analyse sémantique structurée. En postulant la relation existant entre le sens des mots et les changements historiques, à l’instar de la théorie des champs sémantiques de Jost Trier (1894-1970), l’historien est à même de reconstituer la logique d’un système social de représentation manifesté par la sélection des vocables utilisés et mis en relation entre eux.
Dans le cas des langues à déclinaison et à forte variation orthographique, comme celles employées dans l’Occident médiéval (latin et langues vernaculaires), toute ambition de développement de procédures de recherche formalisées et assistées informatiquement implique la lemmatisation des corpus utilisés, c’est-à-dire, le regroupement des fréquences des différentes formes d’un mot sous leur lemme. Au cours des dernières années, plusieurs équipes européennes ce sont attelées à la création de lemmatiseurs (par exemple, à l’université de Francfort, le eHumanities Desktop (accès sous demande), qui propose un corpus médiolatin lemmatisé). En France, deux jeux de paramètres propres aux textes médiévaux, basées sur le logiciel TreeTagger, ont vu le jour simultanément, à partir de 2009, avec des résultats encourageants et toujours en cours de perfectionnement : le tokeniseur et le jeu de paramètres du latin médiéval élaborés par l’équipe de l’ANR OMNIA (Outils et Méthodes Numériques pour l’Interrogation et l’Analyse des textes médiolatins) (dir. A. Guerreau - IRHT, EnC, Artehis) et le lemmatiseur du moyen anglais, du moyen français et du latin, conçu par l’équipe du projet PALM (Plate- forme d’analyse linguistique médiévale) (accès sous demande) (dir. J.-Ph. Genet - Lamop) .
À moyen terme, l’une des visées des producteurs de corpus numérisés devrait être de pouvoir rendre librement accessible aux chercheurs leurs ensembles textuels déjà lemmatisés. Outre l’affinement des outils existants qu’il faudra continuer à soutenir, il s’agit aussi de sensibiliser les différentes équipes à l’importance de cette démarche pour le renouvellement de la recherche, l’intégrer dans les nouveaux projets mis en place et la déployer dans les corpus et bases de données déjà existants. La tâche n’est pas mince car, même si elles ne sont pas incompatibles, les possibilités des traitements automatisés sont très distinctes des méthodes habituelles (i.e. « manuelles ») de la recherche historique qui se trouvent ainsi concurrencées. Une situation, somme toute, que la sociologie de la science a bien diagnostiquée dans les processus qui conduisent à un changement de paradigme scientifique (T. Kuhn).
Responsable
Eliana Magnani (LAMOP-UMR 8589)
Repères bibliographiques
-
Eliana Magnani & Nicolas Perreaux, « A Medieval Epigraphic Corpus and its Retro-Developments (CIFM-CBMA). The Exploratory Research of the COSME2 Consortium », DSH: The Journal of Digital Scholarship in the Humanities, special Issue proceedings of DH2019 conference, dir. Elena Pierazzo, Fabio Ciotti, 2020. DOI: 10.1093/llc/fqaa069. HAL Id: halshs-03085017
-
Estelle Ingrand-Varenne, Eliana Magnani, « Le corpus épigraphique bourguignon (VIIIe-XVe siècle). Des catalogues aux applications numériques », Bulletin du centre d’études médiévales d’Auxerre, BUCEMA, Collection CBMA, Les journées d’études, mis en ligne le 15 novembre 2018, consulté le 06 décembre 2018. DOI: 10.4000/cem.15591. HAL Id: halshs-01946701
-
Eliana Magnani, « Lemmes : un groupe de travail sur les outils de lemmatisation et les corpus de textes médiévaux lemmatisés », Archivum Latinitatis Medii Aevi - ALMA, 76, 2018 (impr. 2019), p. 340-344. HAL Id: halshs-02429433
-
Eliana Magnani, « Les nouveaux corpus CBMA : hagiographie, épigraphie, alia. Bilan et perspectives (2017-2020) », Bulletin du centre d’études médiévales d’Auxerre, BUCEMA, Collection CBMA, Les journées d’études, mis en ligne le 20 mai 2020, consulté le 20 mai 2020. DOI: 10.4000/cem.17087. HAL Id: halshs-02698177
-
Aurore Menudier, « Le corpus épigraphique provençal : premier bilan et comparaison avec le corpus bourguignon », Bulletin du centre d’études médiévales d’Auxerre, BUCEMA, Collection CBMA, mis en ligne le 19 mai 2020, consulté le 25 janvier 2023. DOI: 10.4000/cem.17076.