www.tlab.it
Contextes
élémentaires
Pendant la phase d'importation, T-LAB réalise une segmentation du corpus
en contextes élémentaires: ceci pour faciliter les explorations de
l'utilisateur et, surtout, pour rendre possibles les analyses qui
requièrent le calcul des co-occurrences.
Selon la choix de l'utilisateur, les types de contextes
élémentaires peuvent être les suivants:
1 - Énoncés
Contextes élémentaires marqués par ponctuation (.?! ) et dont la
longueur est inférieure à 1.000 caractères (minimum : 50
caractères).
2 - Fragments
Contextes élémentaires de longueur comparable composés d'un ou
plusieurs énoncés.
Dans ce cas, les règles de segmentation utilisées par
T-LAB sont les
suivantes:
- considérer comme contexte élémentaire chaque séquence de
mots interrompue par le point à la ligne et dont les dimensions
sont inférieures à 400 caractères;
- dans le cas où, dans la longueur maximale, n'est présent
aucun point à la ligne, chercher, dans l'ordre, d'autres signes de
ponctuation (? ! ; : ,). S'il n'y en a pas, segmenter sur la base
d'un critère statistique, mais sans tronquer les unités
lexicales.
3 - Paragraphes
Contextes élémentaires marqués par ponctuation (.?! ) et par le
retour de chariot, dont la longueur maximale est 2.000
caractères.
4 - Textes Courts
Cette option est habilitée seulement quand la longueur maximale des
textes n'excède pas les 2.000 caractères (ex. réponses aux
questions ouvertes).
N.B.:
- le fichier corpus_segments.dat contient le résultat de
la segmentation du corpus;
- l'option concordances permet
de vérifier les contextes élémentaires où chaque mot (ou lemme) est présent.
|