Seuil de fréquence
Pendant la phase de prétraitement T-LAB calcule un seuil de fréquence pour
choisir les mots (formes ou lemmes) à insérer dans la liste des
mots-clés, utilisée dans les analyses à
configuration automatique.
De toute façon, afin de garantir la fiabilité de tous les calculs
statistiques, le seuil minimum T-LAB est fixé à la valeur 4.
Pour ce calcul on emploie un algorithme
documenté dans un des livres de la bibliographie (Bolasco, 1999).
Il se déroule selon les étapes suivantes:
- détection de la gamme de basse fréquence qui, à partir de la
fréquence minimum ("1") est définie par le premier "saut" dans les
valeurs croissantes d'occurrences;
- choix de valeur- seuil qui, selon des tailles du corpus,
correspond à la valeur minimum dans le premier ou dans le deuxième
décile de la gamme (10% ou 20%).
|