| 
  
www.tlab.it
 Mots et Lemmes
 
 
N'importe quel logiciel d'analyse des textes
identifie avant tout les soi-disant formes
graphiques (ou formes brutes), c'est-à-dire les chaînes de
caractères séparées par les espaces vides.
 
Puis, s'accordant à leurs algorithmes spécifiques
ou aux catégories employées par les spécialistes, les logiciels
identifient les lexèmes, les
mots-clés, etc.
 
Les tableaux T-LAB, pour toutes les unités lexicales
présentes dans le database du corpus, reportent deux
informations:
 
-la première, appelée mot, contient la transcription des
unités lexicales (chaque mot, lexie ou
multi-word) comme "chaînes" (en : strings) reconnues par le
logiciel;
 
-la seconde, appelée lemme, contient le label avec lequel
ont été regroupées et classifiées les unités lexicales.
 
Selon les cas, le lemme peut être:
 
- le résultat du processus de lemmatisation
automatique; 
- la rubrique d'un "dictionnaire personnalisé"; 
- une catégorie qui indique un groupe de synonymes; 
- une catégorie d'analyses du contenu; 
- etc. 
 
 
 
 
  
   |