T-LAB Home
T-LAB PLUS 2019 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Contesti Chiave di Parole Tematiche
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Tabelle di Contingenza
Editor
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Criteri Formali


Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.

Quando invece il corpus è costituito da più testi e/o si fa uso di variabili, la preparazione del corpus va realizzata tramite il modulo Corpus Builderche, in modo automatico, rispetta i seguenti criteri:

Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) è preceduto da una riga di codifica.

Ogni riga di codifica ha il seguente formato:

- Inizia con una stringa di quattro asterischi (****) seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore";

- Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber), variabili e rispettive modalità.

- Termina con un ritorno di carrello ("a capo").

Ecco qualche esempio.

La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER)

**** *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber

**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica)

**** *ANNO_98 *TEST_REPUB

In ogni riga di codifica, le norme T-LAB da rispettare sono le seguenti:
1) ogni etichetta (IDnumber, variabile o modalità) non deve essere intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità, non deve superare la lunghezza di 15 caratteri (min. 2);

3) ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere tutte le variabili usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle modalità (per ogni variabile) è di 150;

7) il numero massimo di IDnumber è fissato a 99.999 per i testi brevi (Max. 2.000 caratteri ciascuno, es. risposte a domande aperte, messaggi twitter etc.) e a 30.000 per gli altri casi.