T-LAB Home
T-LAB PLUS 2019 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Contesti Chiave di Parole Tematiche
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Tabelle di Contingenza
Editor
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Classificazione Tematica dei Documenti


Questa funzione è abilitata solo quando il corpus in analisi comprende da un minimo di 20 a un massimo 30.000 documenti primari.

Il processo di analisi può essere effettuato tramite un metodo di clustering 'non supervisionato' (nel caso specifico, un algoritmo di bisecting K-Means) o tramite una classificazione supervisionata (vale a dire approccio top-down). Quando si sceglie il secondo (cioè classificazione supervisionata), viene richiesto di importare un dizionario delle categorie, sia esso creato tramite una precedente analisi T-LAB che costruito dall'utilizzatore.

Il suo uso consente di costruire cluster di documenti e di esplorare le loro caratteristiche attraverso operazioni/opzioni simili a quelle descritte nella sezione dell'help dedicata all'Analisi Tematica dei Contesti Elementari.

La sua specificità consiste nel fatto che la tabella analizzata è costituita da tante righe quanti sono i documenti del corpus, ciascuno dei quali è rappresentato come un vettore con valori che indicano le occorrenze delle parole in esso presenti.

Inoltre, quando i documenti analizzati non superano i 3000, è possibile ottenere misure di similarità (indice del coseno) tra ciascuno di essi e tutti gli altri (vedi sotto).N.B.: In questo caso la soglia minima dell'indice di similarità è fissata a 0.05.

Gli output che differenziano questa funzione sono quindi i seguenti:

I documenti appartenenti ad ogni cluster sono ordinati secondo il valore decrescente del loro score (vedi sopra) e possono essere esplorati nel formato HTML.

In questo caso il valore di rilevanza (score) assegnato ad ogni documento (i) del cluster (k) è ottenuto applicando la seguente formula:

Dove:
i - si riferisce al documento i;
k - si riferisce cluster k;
cos - è il simbolo di coseno;
di - è il vettore normalizzato del TFj,i IDFj, dove j si riferisce a una parola del documento i
ck - è il vettore normalizzato del TFj,k IDFj, dove j si riferisce una parola del cluster k

Usando gli score ottenuti dalla suddetta formula, T-LAB rende disponibile il file "Document_Membership_Degree.xls " (vedi sotto) che contiene i cluster a cui sono stati assegnati i vari documenti, sia mediante il metodo bisecting K-Means (appartenenza esclusiva di ogni documento a un cluster) che mediante il valore del TF-IDF (appartenenza "mista" - in formato percentuale - di ogni documento ai vari cluster).

 

Quando il pulsante Similarità Documenti è abilitato, cliccando su di esso è possibile verificare in che misura ogni documento è simile a ciascuno degli altri. In questo caso la misura di similarità è il coefficiente del coseno e il suo valore varia in funzione di quante parole sono state utilizzate per la classificazione tematica.

L'immagine seguente descrive le opzioni disponibili per questo tipo di verifica.



All'uscita di questa funzione, alcuni messaggi ricordano che è possibile esplorare i cluster ottenuti con altri strumenti T-LAB.

Scegliendo l'opzione "SALVA", la variabile < DOC_CLUST> (cluster di documenti) resta disponibile in tutte le successive analisi dello stesso corpus realizzate con altri strumenti T-LAB.