T-LAB Home
T-LAB PLUS 2019 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Contesti Chiave di Parole Tematiche
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Tabelle di Contingenza
Editor
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Corpus e Sottoinsiemi


Corpus: collezione di uno o più testi selezionati per un lavoro di analisi.

Sottoinsieme: una parte del corpus definita tramite l'uso di variabili e modalità.

T-LAB consente - in modo automatico - di esplorare e di analizzare le relazioni tra le unità di analisi di tutto il corpus o di suoi sottoinsiemi.

Qualche esempio di corpus:

  • un singolo testo o documento che tratti un qualunque argomento;
  • un insieme di articoli tratti dalla stampa e che affrontano lo stesso argomento;

  • una o più interviste realizzate entro un progetto di ricerca;

  • uno o più libri dello stesso autore o che affrontano temi simili;

  • una mailing-list scaricata da internet;

  • un insieme di risposte a una "domanda aperta" di un questionario;

  • una o più trascrizioni di focus group.

Qualche esempio di sottoinsieme:

  • nel caso di un corpus costituito da articoli pubblicati in vari anni (es ANNO = variabile usata), tutti gli articoli di un determinato anno (es 2001 = modalità della variabile anno);
  • nel caso di risposte a domande aperte, tutte le risposte di una determinata categoria di persone (es FEM = modalità della variabile SESSO);
  • nel caso di un corpus suddiviso per aree tematiche (es TEMA = variabile), tutte le parti che si riferiscono allo stesso tema (es SCUOLA = modalità della variabile TEMA).

N.B.: Sottoinsiemi del corpus sono anche i "cluster tematici" di documenti o di contesti elementari ottenuti utilizzando i corrispondenti strumenti T-LAB.

Nel caso di un corpus costituito da più testi, perché questo sia un insieme utilmente analizzabile, si richiede che le sue parti abbiano due caratteristiche che li rendano comparabili:

a) una qualche omogeneità tematica e/o del contesto in cui sono stati prodotti, in modo da ottenere dati tra loro confrontabili;

b) un equilibrato rapporto tra le loro dimensioni, sia in termini di occorrenze sia in termini di Kbytes, per non incorrere in "anomalie" di tipo statistico.

 

Entro la logica di T-LAB, il corpus è un database organizzato in record e campi. Più precisamente, i record sono costituiti dalle entità archiviate (testi, frammenti di testi, parole) e i campi sono costituiti dalle caratteristiche utilizzate per classificare le varie entità (gli autori dei testi, i contesti di riferimento, i tipi di parole, etc.).

Vedi Preparazione del Corpus