www.tlab.it
Critères
Structuraux
Les critères structuraux à
respecter concernent la taille du
corpus et sa subdivision en parties.
Quant à la taille, tous les outils T-LAB ont été testés avec un corpus 90Mo,
correspondant à environ 55.000 pages de format .txt.
Les limites pour la taille
minimum requièrent différents critères d'évaluation, parce
que, sous un certain seuil, la taille du corpus peut compromettre
la fiabilité de beaucoup d'analyses statistiques. À ce propos il
suffit de suivre deux instructions: employer les corpus avec au
moins 5.000 occurrences (approximativement 30 Ko); autrement, dans
le cas des questions ouvertes, 50 réponses au minimum. En effet,
dans ce dernier cas, chaque réponse constitue une différente unité
de contexte.
Afin d'être traité, le corpus peut se composer de: un
texte unique sans d'autres partitions; un texte subdivisé selon des
critères établis par l'utilisateur (par exemple, un livre divisé en
chapitres); un certain nombre de textes (par exemple, différents
entretiens ou différents documents) classifiés par l'usage de
variables et/ou IDnumber. Dans ces derniers cas, le corpus est
subdivisé en parties qui doivent être
codées par des critères formels
précis.
|