www.tlab.it
Mots et Lemmes
N'importe quel logiciel d'analyse des textes
identifie avant tout les soi-disant formes
graphiques (ou formes brutes), c'est-à-dire les chaînes de
caractères séparées par les espaces vides.
Puis, s'accordant à leurs algorithmes spécifiques
ou aux catégories employées par les spécialistes, les logiciels
identifient les lexèmes, les
mots-clés, etc.
Les tableaux T-LAB, pour toutes les unités lexicales
présentes dans le database du corpus, reportent deux
informations:
-la première, appelée mot, contient la transcription des
unités lexicales (chaque mot, lexie ou
multi-word) comme "chaînes" (en : strings) reconnues par le
logiciel;
-la seconde, appelée lemme, contient le label avec lequel
ont été regroupées et classifiées les unités lexicales.
Selon les cas, le lemme peut être:
- le résultat du processus de lemmatisation
automatique;
- la rubrique d'un "dictionnaire personnalisé";
- une catégorie qui indique un groupe de synonymes;
- une catégorie d'analyses du contenu;
- etc.
|