T-LAB 10.2 - HELP ON-LINE - Strumenti per l'Analisi dei Testi

Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.

Quando invece il corpus è costituito da più testi e/o si fa uso di variabili, la preparazione del corpus va realizzata tramite il modulo Corpus Builderche, in modo automatico, rispetta i seguenti criteri:

Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) è preceduto da una riga di codifica.

Ogni riga di codifica ha il seguente formato:

- Inizia con una stringa di quattro asterischi (****) seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore";

- Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber), variabili e rispettive modalità.

- Termina con un ritorno di carrello ("a capo").

Ecco qualche esempio.

La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER)

**** *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber

**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica)

**** *ANNO_98 *TEST_REPUB

In ogni riga di codifica, le norme T-LAB da rispettare sono le seguenti:
1) ogni etichetta (IDnumber, variabile o modalità) non deve essere intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità, non deve superare la lunghezza di 25 caratteri (min. 2);
3) ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere tutte le variabili usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle modalità (per ogni variabile) è di 150;
7) il numero massimo di IDnumber è fissato a 99.999 per i testi brevi (Max. 2.000 caratteri ciascuno, es. risposte a domande aperte, messaggi twitter etc.) e a 30.000 per gli altri casi.