Glossaire du traitement automatique de la langue

Yves Ouvrard, mars 2019

Ce document peut être reproduit par n’importe quel moyen que ce soit, pourvu qu’aucune modification ne soit effectuée et que cette notice soit préservée.

Analyse morphologique – L’analyse morphologique consiste à donner tous les traits morphologiques d’une forme. Par exemple, en français, le mot aviez : deuxième personne, pluriel, indicatif, actif. L’analyse morphologique est habituellement accompagnée de la lemmatisation de la forme et de son POS : lemme avoir, verbe, 2ème personne du pluriel de l’indicatif actif. Souvent, un mot a plusieurs analyses morphologiques possibles. C’est le cas, par exemple, de la forme avions pour laquelle on donnera :
- lemme avoir, verbe, 1ère personne du pluriel de l’indicatif actif.
- lemme avion, nom, pluriel.
Code source – L’ordinateur est incapable d’exécuter des ordres exprimés en langage naturel Il faut lui fournir une suite de uns et de zéros que l’humain a le plus grand mal à lire et à écrire. Pour obtenir un programme utilisable sur un ordinateur, le programmeur s’exprime donc dans un langage іnformatique assez ressemblant au langage naturel, mais dont le lexique est très pauvre, et la syntaxe d’une rigueur absolue. Ce qu’il écrit alors est le code source du programme. Un programme appelé compilateur transforme ensuite le code source en code exécutable, cette suite de uns et zéros. Une autre possibilité est d’utiliser un langage interprété. Ce sera alors un interpréteur qui transforme directement le code source en instructions exécutables par la machine.
compilateur, interpréteur – Opération qui consiste à transformer le code source en code exécutable par la machine. Le programme chargé de la compilation est un compilateur. L’interpréteur, au lieu de générer un exécutable, lit le code source et le transforme immédiatement en instructions exécutables.
encodage – Aux débuts de l’informatique, la mémoire était limitée et coûteuse, et l’on s’est contenté de 127 caractères, qui tenaient dans sept bits (zéros et uns) : les chiffres, les lettres de l’alphabet latin, majuscules et minuscules, et quelques ponctuations. Ce premier encodage, nommé ASCII (American Standard Code for Information Interchange), a vite été remplacé par des jeux de caractères plus riches (255 caractères), mais qui ont le défaut d’être “localisés” (Europe Occidentale, Europe Centrale etc…). On a fini par aboutir au standard Unicode, qui possède 137 929 caractères (il a la possibilité d’en gérer plus d’un million). Avec les jeux de caractères “primitifs” (moins de 256 caractères), l’encodage se faisait systématiquement sur un octet qui est, de fait, l’élément de base pour le stockage des données. Pour que les caractères accentués apparaissent correctement, il fallait être capable d’indiquer quel jeu de caractères avait été utilisé. Avec l’adoption de l’Unicode, est apparue le problème de l’encodage : comment stocker une information qui aurait besoin, a priori, de 16 voire 32 bits dans des systèmes où la brique élémentaire en compte huit ? Plusieurs solutions, aux noms barbares (UTF-16LE, UTF-8, UTF-7), ont été proposées. Aujourd’hui, l’UTF-8 est en passe de devenir LE standard. Avant tout traitement automatique, il est prudent de connaître l’encodage du texte à analyser. Tout en étant conscient que le problème se pose surtout quand interviennent des caractères accentués ou des caractères non-latins (grecs ou cyrilliques).
entrée (dictionnaire) – Dans le dictionnaire, il y a en général une entrée par lemme. L’entrée débute par la forme canonique du mot, suivie par des indications morphologiques (POS, génitif, $ temps primitifs), l’étymologie, les différentes traductions, des exemples, et les formes irrégulières.
épenthèse – L’épenthèse est l’apparition, à l’intérieur d’un mot, d’une consonne destinée à faciliter sa prononciation. En latin médiéval, le classique damnum est devenu dampnum ; solemnitas est devenu solempnitas.
flexion, paradigmes, modèles – La flexion d’un lemme est sa capacité à être écrit et prononcé de plusieurs manières. La flexion obéit le plus souvent à un ensemble de règles qu’on appelle modèle. Le modèle d’un lemme est donné par le dictionnaire, en tête d’entrée, d’une manière implicite.
formats électroniques, encodage – Il est devenu très facile de se procurer des textes, de toute époque et dans toute langue. Mais pour travailler sur un texte, il faut d’abord savoir quel est son format, c’est à dire quelle méthode a été utilisée pour l’enregistrer sur une machine. Voici une liste simplifiée des formats de texte :
- Le texte pur, dont l’encodage peut varier. De plus en plus, les textes sont encodés en UTF-8 ;
- Le texte balisé (html, LaTeX, markdown, XML/TEI) permet de changer de la couleur, la disposition, la taille, la police, la graisse, le style, etc., à n’importe quel endroit du texte. Le plus souvent, ces indications non textuelles sont insérées dans des balises ouvrantes et fermantes. Dans le format html, les balises sont les caractères < et >.
- Les fichiers issus des traitements de texte (odt LibreOffice, docx Word), dont les règles sont souvent très complexes, et la plupart du temps inutilisables tels quels par les logiciels d’analyse automatique. Pour remédier à cet inconvénient, il faut convertir ces fichiers en fichiers texte, soit grâce aux convertisseurs internes (enregistrer sous, exporter), soit grâce à des convertisseurs externes spécialisés.
forme – Une forme est l’un des éléments de la flexion d’un lemme. Lorsqu’on conjugue un verbe, on cite l’une après l’autre toutes les formes du verbe. Chaque forme peut être étiquetée par une série de traits morphologiques : genre, nombre, cas, personne, mode, temps, voix, etc. Certaines POS n’ont qu’une forme, comme la préposition latine ad. D’autres en ont plus d’une centaine, comme les verbes.
Forme canonique (ou mot-vedette, en anglais catchword) – Un lemme peut avoir un très grand nombre de formes, mais aussi parfois quelques variantes graphiques, par exemple negligo à côté de neglego. Pour désigner ce lemme, on utilise l’une de ses formes, qui correspond à une morphologie précise, choisie par consensus entre les grammairiens. Pour le français, on a choisi le singulier des noms, le masculin singulier des adjectifs, l’infinitif présent actif des verbes. ex. aimer. Pour le latin, on donne la première personne du singulier du présent de l’indicatif actif ex. amo.
langage informatique – Un langage informatique est un langage conçu spécialement pour être transformé en code exécutable, le seul auquel la machine puisse obéir. Très peu nombreux au début de l’ère informatique, ces langages se sont multipliés. Presque tous empruntent leur lexique à l’anglais. Leur syntaxe est extrêmement rigide, et la moindre erreur les rend inutilisables. Lorsque le programmeur a écrit un code source, il utilise un compilateur ou un interpréteur, programmes spécialisés qui permettent de convertir le code source en code exécutable.
langage naturel – Le langage naturel est celui que les humains ont toujours utilisé pour communiquer, alors que les langages informatiques ont été créés de toutes pièces par les ingénieurs.
Lemmatiser, lemmatiseur – Lemmatiser un mot, c’est trouver quel lemme l’a produit. Assez souvent, il y a plusieurs solutions, comme pour le mot avions, donné en exemple à l’article analyse morphologique. Il y a donc deux sens à lemmatiser : soit trouver tous les lemmes pouvant produire une forme donnée, soit trouver le lemme que l’auteur du texte a utilisé pour produire cette forme.
La lemmatisation d’un texte se fait en plusieurs étapes :
1. La tokenisation consiste à transformer le texte en une liste de formes.
2. La recherche des suffixes étrangers au lemme (en latin, -que, -ue, -ne) ;
3. La prise en compte de la graphie ramiste, des variantes graphiques
4. La lemmatisation proprement dite : quels lemmes peuvent donner cette forme ?
5. En cas de réponse multiple, le classement des résultats, en commençant par le plus probable.
lemme – Un lemme est l’unité constituante d’un lexique. En latin, un lemme peut se rencontrer sous diverses formes, parfois très différentes les unes des autres. Par exemple, les quatre formes fers, ferre, latos, tulerunt appartiennent au même lemme fero. Des règles syntaxiques permettent de décider quelle forme du lemme employer. Pour saisir le sens d’un énoncé, il est indispensable de savoir identifier la morphologie d’une forme, opération très rapide et inconsciente la plupart du temps.
lexicométrie – La lexicométrie est l’étude de la quantification des lemmes dans un corpus, et de leur répartition. Elle est utilisée dans de nombreux buts : identifier l’auteur d’un texte, le dater, le situer, extraire des connaissances, comparer, etc.
Modèle – Un modèle est un ensemble de règles qui permet de fléchir un lemme. On ne pourra donc ni conjuguer ni décliner avant de savoir quel modèle appliquer. Parmi ces règles, certaines donnent la méthode pour calculer un radical, d’autres disent quelle désinence ajouter à quel radical pour obtenir la forme recherchée. Un modèle reçoit le nom d’un lemme très employé appliquant ce modèle. Par exemple : rosa, templum, amo Il vaut mieux que ce lemme n’ait aucune ambiguïté. Par exemple, le nom amicus est aussi un adjectif. Mieux vaut choisir lupus, qui est toujours un nom. Les dictionnaires papier ne donnent le modèle que de manière implicite. Par exemple, au lieu de dire que le lemme cubitum suit le modèle templum, le dictionnaire donne le génitif (i) et le genre (n.) : cubitum, i, n. : coude. La grammaire académique propose un nombre réduit de modèles. Les lemmatiseurs latins en utilisent plus d’une centaine. Dans la flexion des lemmes les plus courants, on trouve la plupart du temps des formes irrégulières, qui désobéissent aux règles de leur modèle.
morphologie – Liste des traits morphologiques caractéristiques d’une forme. Voici un tableau simplifié des traits morphologiques en fonction des différents POS, pour la langue latine :
- nom : cas, nombre
- pronom : cas, genre, nombre
- adjectif : cas, genre, nombre, degré
- adverbe : degré
- verbe : personne, nombre, temps, mode, voix.
- verbe, formes adjectivales : cas, genre, nombre, temps, mode, voix
  Exemples :
  1. sustulisti : tollo, 2ème personne du pluriel, parfait indicatif actif ;
  2. gestas : gero, accusatif féminin pluriel participe parfait passif.
  3. cupidissimorum : cupidus, génitif masculin (ou neutre) pluriel, superlatif
OCR – Optical Character Recognition, fr. ROC (peu utilisé) L’OCR est un procédé qui consiste à photographier un texte, et à transformer l’image obtenue en texte, qu’on peut àlors corriger, et envoyer dans un lemmatiseur. L’OCR est loin d’être infaillible, et des relectures humaines sont nécessaires pour corriger un texte océrisé.
POS – acronyme pour Part Of Speech. En français, il n’y a pas de consensus. On trouve catégorie grammaticale, classe grammaticale, nature, et même partie du discours. On peut définir de deux manières le concept de classe grammaticale :
- par les traits morphologiques de sa flexion ;
- par le lien du lemme avec le monde réel : chose ou être (nom), propriété (adjectif), prédicat (verbe).
préfixe, suffixe – Éléments constitutifs du lemme qui ѕe collent au début ou à la fin d’un mot. Par exemple, le verbe clamo peut recevoir
- un préfixe : declamo
- un suffixe : clamito
- les deux : conclamito
  Le latin connaît un type particulier de suffixe, qui, au lieu de modifier le sens du mot, lui ajoute un second mot :
- le suffixe -que, qui équivaut à et + le mot : rogandisque est une autre manière d’écrire et rogandis.
- le suffixe -ne, rend la phrase interrogative. Ad amicos confugiam Je me réfugierai auprès de mes amis. ad amicosne confugiam ? Me réfugierai-je auprès de mes amis ?
- le suffixe -ue, pour indiquer une alternative : bis terue deux ou trois fois.
prosodie, métrique, quantité, scansion, accentuation – Le latin possède des syllabes longues et des syllabes brèves. Les mots sont accentués en fonction de la disposition de ces longues et brèves. L’étude de cette prosodie peut être intéressante pour étudier la poésie et les clausules. Il est possible de scander automatiquement un texte, de l’accentuer, et de repérer ses clausules (suite caractéristique de longues et de brèves à la fin d’une phrase).
radical, désinence – Le radical est la partie du lemme qui ne change pas lorsqu’on le fléchit. La désinence est ce qu’il faut ajouter au radical pour obtenir une forme. Un lemme peut avoir plusieurs radicaux. Les verbes latins en ont habituellement trois : le radical d’infectum, le radical de perfectum, et le radical de supin. Ces radicaux sont donnés par le dictionnaire sous forme de temps primitifs, et dans le cas du modèle amo, on peut les calculer en suivant des règles ѕimples.
Ramus – Pierre de la Ramée (1515 - 1572), outre une œuvre philosophique considérable, est connu pour avoir systématiquement différencié les deux prononciations des lettres u et i. Par iuuenis, en graphie ramiste, devient juvenis. Les manuels du secondaire et les dictionnaires sont en graphie ramiste. La plupart des éditions critiques sont restées en graphie ancienne.
syntaxe, analyse syntaxique – La syntaxe d’une lange est l’ensemble des règles qui permettent de générer un énoncé grammatical dans cette langue. L’analyse syntaxique automatique est possible, mais obtient de moins bons résultats que l’analyse morphologique.
tagger, tagueur – Ou étiqueteur morpho-syntaxique. Les lemmatiseurs classiques sont incapables, en présence de plusieurs solutions de lemmatisation, de choisir laquelle est celle que l’auteur a voulu employer, et que le lecteur intelligent reconnaît sans difficultés. Aussi le lemmatiseur est souvent aidé par un tagueur, qui utilise des statistiques obtenues à partir d’un corpus d’entraînement. C’est un lecteur humain qui procède à un premire étiquetage, et l’ordinateur prend la suite.
tokenisation, token – La tokenisation consiste à transformer le texte en une liste de formes, ou tokens.
trait morphologique – Quelle forme choisir lorsqu’on désire employer un lemme dans un énoncé ? Par exemple, parmi les formes du lemme beau [belles, belle, beaux, beau], laquelle choisir dans la phrase Que la campagne est b… ? Pour cela, on va utiliser une série de traits morphologiques qui essaient de correspondre à la réalité :
- le genre : campagne est-il masculin ou féminin ?
- le nombre : parle-t-on d’une ou de plusieurs campagnes ?
  Ce reflet de la réalité est très imparfait. Voici la liste des traits morphologiques utilisés par le latin. Intentionnellement, les listes sont en ordre alphabétique :
- cas : ablatif, accusatif, datif, génitif, locatif, nominatif, vocatif
- genre : féminin, masculin, neutre
- nombre : pluriel, singulier
- personne : deuxième, première, troisième
- degré : comparatif, positif, superlatif
- temps : futur, futur antérieur, imparfait, parfait, plus-que-parfait, présent
- mode : adjectif verbal, indicatif, gérondif, impératif, infinitif, participe, subjonctif, supin
- voix : actif, passif
  Chaque catégorie grammaticale utilise un ou plusieurs de ces traits morphologiques. L’article POS en donne la liste pour chaque catégorie.
variante graphique – La latin a une très longue histoire, au cours de laquelle les principes de notation ont beaucoup évolué, principalement pour refléter l’évolution phonétique. On peut distinguer :
- L’assimilation, qui transforme deux consonnes successives en une consonne double : adcedo devient accedo, conminus devient comminus.
- La contraction est la perte d’une partie du mot qui ne se prononce plus : amaueram devient amaram, adscendo devient ascendo, periculum periclum.
- une abréviation est la notation d’une partie du mot, le début ou la fin. consules s’écrit souvent COSS, februarius devient febr. La plupart des prénoms sont abrégés.
- L’agglutination consiste à coller deux mots successifs pour n’en former qu’un : et enim devient etenim, sic ut devient sicut.
- L’épenthèse. En outre, certaines voyelles se sont fermées ou ouvertes, les diphtongues se sont simplifiées en une seule voyelle : ameicus devient amicus, auorsor, auersor. Les consonnes aussi ont évolué : colos devient color, caelebs s’écrit caeleps, etc. Un lemmatiseur doit pouvoir identifier et traiter ces variantes graphiques. À partir du XVI^e siècle, sous l’impulsion de Ramus, on a ajouté deux lettres à l’alphabet latin, j et v, afin de distinguer les deux prononciations du i et du u. Dans les noms propres germaniques, la ligature de deux v successifs, vv, est devenue la lettre w.