T-LAB Home
T-LAB 10.2 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Co-occurrence Toolkit
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Criteri Formali


Nel caso di un corpus costituito da unico testo, e comunque quando l'utilizzatore non fa ricorso all'uso di variabili, non sono richiesti altri tipi di interventi e si può passare direttamente alla fase di importazione.

Quando invece il corpus è costituito da più testi e/o si fa uso di variabili, la preparazione del corpus va realizzata tramite il modulo Corpus Builderche, in modo automatico, rispetta i seguenti criteri:

Ogni testo o sottoinsieme di esso (le "parti" individuate dalle variabili) è preceduto da una riga di codifica.

Ogni riga di codifica ha il seguente formato:

- Inizia con una stringa di quattro asterischi (****) seguita da uno spazio (blank). Da T-LAB questa stringa viene interpretata nel modo seguente: "qui inizia un testo o una unità di contesto definita dall'utilizzatore";

- Continua, con l'aggiunta di stringhe costituite da singoli asterischi ed etichette che individuano casi (IDnumber), variabili e rispettive modalità.

- Termina con un ritorno di carrello ("a capo").

Ecco qualche esempio.

La riga seguente introduce un testo (o parte del corpus) codificato con tre variabili - ETA (età), SES (sesso) e PROF (professione) - e relative modalità (ADUL, FEM, OPER)

**** *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con le stesse variabili e con l'etichetta IDnumber

**** *IDnumber_0001 *ETA_ADUL *SES_FEM *PROF_OPER

La riga seguente introduce un testo (o parte del corpus) codificato con due variabili: ANNO, TEST (testata giornalistica)

**** *ANNO_98 *TEST_REPUB

In ogni riga di codifica, le norme T-LAB da rispettare sono le seguenti:
1) ogni etichetta (IDnumber, variabile o modalità) non deve essere intervallata da spazi vuoti;
2) ogni etichetta, sia nel caso delle variabili che delle modalità, non deve superare la lunghezza di 25 caratteri (min. 2);

3) ogni etichetta delle variabili va congiunta alla rispettiva modalità attraverso l'uso del trattino basso "_" (underscore);
4) tra una variabile e l'altra, cioè prima del successivo asterisco, va inserito uno spazio vuoto (blank);
5) per ogni parte del corpus, la riga di codifica deve includere tutte le variabili usate;
6) il numero massimo di variabili utilizzabili è 50, quello delle modalità (per ogni variabile) è di 150;

7) il numero massimo di IDnumber è fissato a 99.999 per i testi brevi (Max. 2.000 caratteri ciascuno, es. risposte a domande aperte, messaggi twitter etc.) e a 30.000 per gli altri casi.