Unité d'Analyse
Les unités d'analyse de
T-LAB sont de deux
types: unités lexicales et
unités de contexte.
A - les unités
lexicales sont des mots, simples ou "multiples",
archivés et classifiés sur la base d'un critère. Plus précisément,
dans le database T-LAB chaque unité lexicale
constitue un record classifié avec deux champs: forme et lemme. Dans le premier champ, appelé
forme, sont listés les mots ainsi
qu'ils apparaissent dans le corpus, alors que dans le second,
appelé lemme, sont listés les labels
attribués à des groupes d'unités lexicales classifiées selon des
critères linguistiques (ex. lemmatisation) ou au moyen de dictionnaires et de
grilles sémantiques définies par l'utilisateur.
B - les unités de
contexte sont des portions de texte dans lesquelles
le corpus peut être subdivisé. Plus exactement, dans la logique
T-LAB, les unités de
contexte peuvent être de trois types:
B.1 documents primaires,
correspondant à la subdivision "naturelle" du corpus
(ex. interviews, articles, réponses à des questions ouvertes,
etc.), ou bien aux contextes initiaux
définis par l'utilisateur;
B.2 contextes élémentaires ,
correspondant à des unités syntagmatiques d'une ou de plusieurs
phrases et définis de façon automatique (ou semi-automatique) par
T-LAB. Ainsi, dans le
database T-LAB chaque
document primaire se révèle être constitué d'un ou de plusieurs
contextes élémentaires;
B.3 sous-ensembles du corpus,
correspondant à des groupes de documents primaires reconductibles à
la même "catégorie" (ex. interviews d' "hommes" ou de "femmes",
articles d'une année particulière ou d'un titre particulier, et
ainsi de suite).
|