Unità di Analisi
Le unità di analisi di
T-LAB sono di due tipi:
unità lessicali e unità di contesto.
A - le UNITA'
LESSICALI sono parole, singole o "multiple", archiviate
e classificate in base a un qualche criterio. Più precisamente, nel
database T-LAB ogni unità lessicale costituisce un record
classificato con due campi: forma e lemma. Nel
primo campo, denominato forma, sono
elencate le parole così come compaiono nel corpus, mentre nel
secondo, denominato lemma, sono
elencate le label attribuite a gruppi di unità lessicali
classificate secondo criteri linguistici (es. lemmatizzazione) o tramite dizionari e griglie
semantiche definite dall'utilizzatore.
B - le UNITA' DI
CONTESTO sono porzioni di testo in cui può essere
suddiviso il corpus. Più esattamente, nella logica T-LAB, le unità di contesto possono essere di
tre tipi:
B.1 documenti primari,
corrispondenti alla suddivisione "naturale" del corpus (es.
interviste, articoli, risposte a domande aperte, etc.), ovvero ai
contesti iniziali definiti
dall'utilizzatore;
B.2 contesti elementari , corrispondenti
a unità sintagmatiche di una o più frasi e definiti in modo
automatico (o semi-automatico) da T-LAB. Quindi, nel database T-LAB ogni documento primario risulta
costituito da uno o più contesti elementari;
B.3 sottoinsiemi del corpus,
corrispondenti a gruppi di documenti primari riconducibili alla
stessa "categoria" (es. interviste di "uomini" o di "donne",
articoli di un particolare anno o di una particolare testata, e
così via).
|