www.tlab.it
Criteri Formali
Nel caso di un corpus
costituito da unico testo, e comunque quando l'utilizzatore non fa
ricorso all'uso di variabili,
non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.
Quando invece il corpus è costituito da più testi e/o si
fa uso di variabili, la preparazione del corpus va realizzata
tramite il modulo Corpus Builderche, in modo automatico,
rispetta i seguenti criteri:
Ogni testo o sottoinsieme di esso (le "parti" individuate
dalle variabili) è preceduto da una riga di
codifica.
Ogni riga di codifica ha il
seguente formato:
- Inizia con una
stringa di quattro asterischi (****)
seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel
modo seguente: "qui inizia un testo o una unità di contesto
definita dall'utilizzatore";
- Continua, con l'aggiunta
di stringhe costituite da singoli asterischi ed
etichette che individuano casi (IDnumber), variabili e
rispettive modalità.
- Termina
con un ritorno di carrello ("a capo").
Ecco qualche esempio.
La riga seguente introduce un testo (o parte del corpus)
codificato con tre variabili - ETA (età), SES (sesso) e PROF
(professione) - e relative modalità (ADUL, FEM, OPER)
**** *ETA_ADUL *SES_FEM *PROF_OPER
La riga seguente introduce un testo
(o parte del corpus) codificato con le stesse variabili e con
l'etichetta IDnumber
**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER
La riga seguente introduce un testo (o parte del corpus)
codificato con due variabili: ANNO, TEST (testata
giornalistica)
**** *ANNO_98 *TEST_REPUB
In ogni riga di codifica, le norme T-LAB da rispettare sono le
seguenti: 1)
ogni etichetta (IDnumber, variabile o modalità) non deve essere
intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità,
non deve superare la lunghezza di 25 caratteri (min. 2);
3) ogni etichetta delle variabili va congiunta alla rispettiva
modalità attraverso l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo
asterisco, va inserito uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere
tutte le variabili usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle
modalità (per ogni variabile) è di 150;
7) il numero massimo di IDnumber è fissato a 99.999
per i testi brevi (Max. 2.000 caratteri ciascuno, es. risposte a
domande aperte, messaggi twitter etc.) e a 30.000 per gli altri
casi.
|