www.tlab.it
Criteri Strutturali
I criteri strutturali da
rispettare riguardano le dimensioni
del corpus e la sua suddivisone in
parti.
Quanto alle dimensioni, tutti gli strumenti
T-LAB sono stati testati con un corpus di 90
Megabytes, pari a circa 55.000 pagine in formato solo testo.
I limiti per la grandezza
minima richiedono criteri di valutazione diversi; questo
perché - sotto una certa soglia - le dimensioni del corpus possono
compromettere l'attendibilità di molte analisi statistiche. A
questo proposito, basta attenersi alle seguenti indicazioni:
un minimo di 5.000 occorrenze (circa 30 K); oppure, nel
caso di "domande aperte", un minimo di 50 risposte. In quest'ultimo
caso, infatti, ogni risposta costituisce una diversa unità di
contesto.
Ai fini del trattamento, il corpus può essere costituito
da un unico testo senza ulteriori partizioni, da un unico testo
ripartito secondo criteri stabiliti dall'utilizzatore (ad es. un
libro suddiviso in capitoli), da più testi (ad es. diverse
interviste o risposte a domande aperte) classificati attraverso
l'uso di etichette che rinviano ad altrettante variabili o IDnumber.
In tutti questi casi, il corpus è suddiviso in parti che devono essere individuate con precisi
criteri formali.
|