T-LAB 10.2 - HELP ON-LINE - Strumenti per l'Analisi dei Testi

N.B.: Le immagini di questa sezione fanno riferimento a una versione precedente di T-LAB. In T-LAB 10 l'aspetto è leggermente diverso. Inoltre: a) un nuovo pulsante (TREE MAP PREVIEW) consente di creare grafici dinamici in formato HTML; b) il pulsante DENDROGRAMMA è stato sostituito con lo strumento Graph Maker; c) è disponibile una ulteriore tabella che mostra in varie colonne le parole tipiche di ogni cluster; d) è possibile effettuare ulteriori analisi delle corrispondenze tra i cluster tematici e ciascuna delle variabili disponibili; e) una galleria di immagini funziona come un menu aggiuntivo e consente di passare da un output all'altro con un solo clic.
Alcune di queste nuove funzionalità sono evidenziate nell'immagine seguente.

Questo strumento T-LAB consente di costruire ed esplorare una rappresentazione dei contenuti del corpus attraverso pochi e significativi cluster tematici (minimo 3, massimo 50), ciascuno dei quali:

a) risulta costituito da un insieme contesti elementari (frasi, paragrafi o testi brevi quali risposte a domande aperte) caratterizzati dagli stessi pattern di parole chiave;

b) è descritto attraverso le unità lessicali (parole, lemmi o categorie) e le variabili (se presenti) che più caratterizzano i contesti elementari da cui è composto

Per molti versi, si può affermare che il risultato dell'analisi propone una mappatura delle isotopie (iso = uguale; topoi = luoghi) intese come temi "generali" o "specifici" (Rastier, 2002: 204) caratterizzati dalla co-occorrenza di tratti semantici. In effetti ogni cluster, caratterizzato da insiemi di unità lessicali che condividono gli stessi contesti di riferimento, consente di ricostruire "un filo" del discorso all'interno della trama complessiva costituita dal corpus o da un suo sottoinsieme.

Il processo di analisi può essere effettuato tramite un metodo di clustering 'non supervisionato' (nel caso specifico, un algoritmo bisecting K-Means) o tramite una classificazione 'supervisionata' (vale a dire approccio top-down). Quando si sceglie il secondo (cioè classificazione supervisionata), viene richiesto di importare un dizionario delle categorie, sia esso creato tramite una precedente analisi T-LAB che costruito dall'utilizzatore.

Una finestra di dialogo (vedi sopra) consente di scegliere alcuni parametri dell'analisi.

In particolare:

- il parametro (A) permette di fissare il numero massimo di partizioni da includere negli output T-LAB;
- il parametro (B) permette di escludere dall'analisi le unità di contesto che non contengono un numero minimo di parole chiave (co-occorrenze) incluse nella lista predisposta dall'utilizzatore.

N.B.:
Quando si seleziona l'opzione 'classificazione supervisionata', poiché il numero di cluster che devono essere ottenuti coincide con il numero di categorie presenti nel dizionario, il parametro 'A' non è disponibile;
I suddetti parametri producono cambiamenti significativi nei risultati dell'analisi solo quando il numero di unità di contesto è molto grande e/o quando esse sono costituite da testi corti.

Nel caso di clustering non supervisionato (opzione di default), la procedura di analisi è costituito dai seguenti step:

a - costruzione di una tabella dati unità di contesto x unità lessicali (max 300.000 righe x 5.000 colonne), con valori del tipo presenza/assenza;
b - pretrattamento dei dati tramite TF-IDF e trasformazione di ogni vettore riga a lunghezza 1 (norma euclidea);
c - uso della misura del coseno e clusterizzazione delle unità di contesto tramite il metodo bisecting K-means (riferimenti: Steinbach, Karypis, & Kumar, 2000; Savaresi, Booley, 2001);
d - archiviazione delle varie partizioni ottenute e, per ciascuna di esse:
e - costruzione di una tabella di contingenza unità lessicali x cluster (n x k);
f - test del chi quadro applicato a tutti gli incroci cluster x unità lessicali;
g - analisi delle corrispondenze della tabella di contingenza unità lessicali x cluster (riferimenti: Benzécri, 1984; Greenacre, 1984; Lebart, Salem, 1994).

N.B.: A partire da T-LAB Plus 2016, la clusterizzazione delle unità di contesto (vedi sopra step 'c') può essere ottenuta sia usando l'algoritmo bisecting K-means algorithm (1) che usando una versione 'not centered' dell'algoritmo PDDP(Principal Direction Divisive Partitioning) proposto da D. Booley (1998) per selezionare i centroidi delle varie bisezioni K-means.
La principale differenza tra i due algoritmi sta nel metodo attraverso il quale i due centroidi vengono ottenuti; infatti, nel primo caso (1) essi sono il risultato di una reiterazione, mentre nel secondo caso (2) sono ottenuti tramite SVD (i.e. Singular Value Decomposition), cioè tramite un algoritmo 'one-shot' (vedi Savaresi, S.M., & Boley, D.L. , 2004).

Quindi, questa procedura realizza un tipo di analisi delle co-occorrenze (step a-b-c) e, a seguire, un tipo di analisi comparativa (e-f-g). In particolare, l'analisi comparativa usa come colonne delle tabelle di contingenza le modalità della "nuova variabile" derivata dall'analisi delle co-occorrenze (modalità della nuova variabile = cluster tematici).

N.B.: Quando l'utilizzatore decidere di ripetere/applicare i risultati di una precedente analisi tematica (sia Analisi Tematica dei Contesti Elementari che Modellizzazione dei Temi Emergenti), T-LAB realizza soltanto un'analisi comparativa dei cluster già ottenuti (passi e-f-g).

Nel caso di classificazione supervisionata, le fasi dell'analisi comparativa sono le stesse (vedi sopra e-f-g), mentre l'analisi delle co-occorrenze viene eseguita come segue:
a - normalizzazione dei seed vectors (vale a dire i profili delle co-occorrenze) corrispondenti alle 'k' categorie del dizionario importato;
b -calcolo degli indici del coseno e delle distanze euclidee tra ogni 'i' unità di contesto e ogni 'k' vettore 'seme';
c - assegnazione di ogni 'i' unità di contesto alla 'k' classe o categoria per la quale il seme corrispondente risulta il più simile (in questo caso, la massima somiglianza del coseno e la minima distanza euclidea devono coincidere, altrimenti T-LAB considerare la 'i' unità di contesto come non classificata).

Al termine dell'analisi l'utilizzatore può agevolmente effettuare le seguenti operazioni:

1 - esplorare le caratteristiche dei cluster;
2 - esplorare le relazioni tra cluster;
3 - esplorare le relazioni tra cluster e variabili;
4 - esplorare le diverse partizioni dei cluster;
5 - raffinare i risultati della partizione prescelta e, se necessario, ripetere alcuni dei passi sopra descritti (1,2,3);
6 - assegnare label ai cluster;
7 - verificare quali contesti elementari appartengono a ciascun cluster;
8 - verificare il "peso" di ciascun contesto elementare entro il cluster a cui appartiene;
9- esportare una classificazione tematica dei documenti (solo nel caso in cui il corpus è costituito da almeno 2 documenti primari e questi non sono testi corti trattati come contesti elementari);
10- archiviare la partizione selezionata per esplorarla con altri strumenti T-LAB;
11- esportare un dizionario delle categorie;
12- verificare la qualità della partizione scelta e la coerenza semantica dei vari temi;
13- inoltre, quando il corpus è strutturato come un discorso o una conversazione, cioè quando le unità di contesto si succedono secondo un preciso ordine temporale, è possibile esplorare in modo dinamico le sequenze di temi (vedi sotto, parte finale di questa sezione).

Nel dettaglio:

1 - Esplorare le caratterisitiche dei cluster

Cliccando il pulsante CARATTERISTICHE, per ogni cluster vengono mostrate le unità lessicali e le variabili che lo caratterizzano; e, per ciascuna di esse (unità lessicali o variabili), sono riportati: i valori del chi quadro e le sommatorie dei contesti elementari in cui risulta presente, sia all'interno del cluster selezionato ("IN CLUST") che all'interno dell'insieme analizzato ("IN TOT"). Inoltre, nella colonna "CAT", viene indicato se la caratteristica è stata selezionata dall'utilizzatore nella funzione Impostazioni di Analisi ("A") oppure se è stata proposta da T-LAB come descrizione "supplementare" ("S").

Nel caso del test del chi quadro la struttura della tabella analizzata è la seguente:

Dove:
nij si riferisce alle occorrenze della parola (a) all'interno del cluster selezionato (A);
Nj si riferisce a tutte le occorrenze della parola (a) all'interno del corpus (o del sottoinsieme) in analisi;
Ni si riferisce a tutte le occorrenze all'interno del cluster selezionato (A);
N si riferisce a tutte le occorrenze della tabella di contingenza parole per cluster.

Un report HTML (vedi sotto) consente una dettagliata verifica delle caratteristiche dei cluster. In questo, oltre alla lista delle parole tipiche, vengono mostrati - ordinati in modo decrescente in base al rispettivo peso (score) - i contesti elementari che più caratterizzano il cluster in esame.

Grafici a torta e istogrammi (vedi sotto) consentono di verificare la percentuale delle unità di contesto appartenenti ad ogni cluster.

2 - Esplorare le relazioni tra cluster

Alcuni grafici, ottenuti tramite Analisi delle Corrispondenze consentono di esplorare le relazioni tra i cluster all'interno di spazi bidimensionali.
Più specificamente:
- Per esplorare le varie combinazioni degli assi fattoriali è sufficiente selezionarli negli appositi box ("Asse X", "Asse Y");
- Per ciascuna delle combinazioni (X-Y), è possibile visualizzare vari tipi di elementi (cluster, lemmi e variabili).

Tutti i grafici possono essere personalizzati tramite l'uso di apposite finestre di dialogo (uso del tasto destro del mouse). Inoltre quando i cluster tematici sono più di tre, le loro relazioni possono essere esplorate tramite grafici 3D (vedi sotto).

Come nella funzione Analisi delle Corrispondenze, selezionando gli appositi pulsanti (vedi sotto) compaiono delle tabelle che riportano le caratteristiche delle polarità fattoriali in esame (X-Y).

Una specifica opzione (vedi sotto) consente di visualizzare ed esportare i Risultati Completi dell'analisi delle corrispondenze unità lessicali x cluster.

Una ulteriore opzione (vedi sotto) consente di visualizzare/esportare la Tabella di Contingenza e di creare grafici che mostrano sia le distribuzioni delle singole parole all'interno dei cluster che i rispettivi valori del chi quadrato.
Inoltre, cliccando su specifiche celle della stessa tabella, è possibile creare file HTML con tutti i contesti elementari in cui la parola in riga è presente nel cluster in colonna.

N.B.: In questa tabella sono incluse sia le parole 'attive' ('A') che quelle 'supplementari' ('S').

3 - Esplorare le relazioni tra cluster e variabili

Alcuni istogrammi consentono di verificare le relazioni tra cluster e modalità delle variabili.

Ulteriori relazioni tra cluster e variabili possono essere esplorate con le opzioni disponibili nella sezione Analisi Fattoriale (vedi sopra)

4 - Esplorare le diverse partizioni

Poiché l'algoritmo usato da T-LAB (bisecting K-Means) produce una clusterizzazione gerarchica, l'utilizzatore può agevolmente esplorare diverse soluzioni dell'analisi: partizioni da 3 a 50 clusters.

Per ogni partizione ottenuta, un'apposita tabella (vedi sotto) riporta i seguenti valori:
- "Index", che corrisponde al rapporto tra varianza intercluster e varianza totale;
- "Gap", che indica la differenza tra il valore dell'index e quello della partizione immediatamente precedente:
- Numero del cluster "figlio" (child) ottenuto attraverso dalla bi-sezione del corrispondente "genitore" ("parent").

L'opzione partizioni (vedi sopra) consente di esplorare agevolmente le caratteristiche delle varie soluzioni disponibili.

Inoltre l'opzione dendrogramma (vedi sotto) consente due possibilità:

A) verificare l'albero delle varie bi-sezioni dei cluster;

B) verificare l'albero delle parole caratteristiche a ciascun cluster.

5 - Raffinare i risultati della partizione prescelta

Dopo aver esplorato diverse soluzioni, l'utilizzatore può raffinare i risultati della partizione prescelta e, se necessario, ripetere alcuni dei passi sopra descritti (1,2,3).

A questo scopo sono disponibili due metodi (vedi immagine seguente).

Quando viene scelto il metodo 'A' (cioè Naïve Bayes Classifier), questa funzione T-LAB consente di escludere dall'analisi tutte le unità di contesto la cui appartenenza a un cluster non soddisfa i seguenti criteri:
a) per ogni unità di contesto, il cluster di appartenenza determinato mediante l'algoritmo del bisecting K-Means (unsupervised clustering) e quello determinato mediante il Naïve Bayes Classifier (supervised clustering) deve essere il medesimo;
b) il massimo valore della probabilità a posteriori, corrispondente all'appartenenza della i-unità di contesto al k-cluster, deve essere - in termini percentuali - superiore di almeno il 50 % ai valori delle probabilità a posteriori computate per la stessa i-unità di contesto nei rimanenti cluster.

Diversamente, nel caso del metodo di 'B' (cioè Riclassificazione basata su base Parole Tipiche) T-LAB considera le caratteristiche del cluster, cioè le parole con un significativo valore de Chi-Quadro, come item di un dizionario delle categorie ed esegue le tre fasi della 'classificazione supervisionata' descritte all'inizio di questa sezione. Quindi, quando l'utente è interessato a ri-applicare dizionari e a comparare i relativi risultati, si consiglia vivamente di usare questo metodo.

Tutti i risultati di questo calcolo sono in una tabella esportata da T-LAB (vedi sotto), che contiene i valori delle probabilità a posteriori espressi in termini percentuali.

6 - Assegnare label ai cluster

Un'apposita funzione T-LAB consente di attribuire label ai cluster.
(N.B: Al primo uso alcune label sono proposte automaticamente dal software).

Le label attribuite ai vari cluster possono essere visualizzate nei vari grafici disponibili (vedi sotto).

7 - Verificare quali contesti elementari appartengono a ciascun cluster
8 - Verificare il "peso" di ciascun contesto elementare entro il cluster a cui appartiene
9 - Esportare una classificazione tematica dei documenti

Infatti il pulsante Cluster Membership consente di esportare tre tipi di tabelle (vedi sotto) in formato MS Excel:

a - "Cluster_Partitions.xls", con tutte le corrispondenze unità di contesto x cluster all'interno delle varie partizioni;

b - "Themes-Contexts.xls" (vedi sotto) con le corrispondenze unità di contesto x cluster all'interno della partizione selezionata.

In particolare, il valore di rilevanza (score) assegnato ad ogni j-contesto elementare appartenente al k-cluster è calcolato nel modo seguente:

Dove:

Scorej = valore di rilevanza attribuito al contesto elementare (j);

SXij = somma dei valori del chi-quadrato corrispondenti alle parole chiave (i) trovate nel contesto elementare in questione (j) e che sono risultate tipiche del cluster (k);

nj = totale delle parole chiave (parole distinte), tipiche del cluster (k), trovate nel contesto elementare (j);

N = totale delle parole chiave (parole distinte) tipiche del cluster (k).

c - " Ec_Document_Classification.xls" (output fornito solo nel caso in cui il corpus è costituito da almeno 2 documenti primari e questi non sono testi corti trattati come contesti elementari) che elenca le "appartenenze miste" di ogni documento (vedi sotto).

In questo caso i valori derivano dalla formula già illustrata (vedi punto "b"), sommando gli score dei contesti elementari appartenenti a ogni documento ed applicando un calcolo di percentuali.

10 - Archiviare la partizione selezionata per esplorarla con altri strumenti T-LAB

All'uscita dalla funzione Analisi Tematica dei Contesti Elementari, alcuni messaggi ricordano che è possibile esplorare i cluster ottenuti con altri strumenti T-LAB.

Scegliendo l'opzione "Salva", la variabile < CONT_CLUST > (cluster di contesti elementari) resta disponibile solo in alcuni tipi di analisi (es. Sequenze di Temi, Associazioni di Parole, Confronti tra Coppie e Co-Word Analysis) e fino a quando l'utilizzatore modifica la lista delle parole chiave.

11 - Esportare un dizionario delle categorie

Quando viene selezionata questa opzione, T-LAB crea due files:

- un file dizionario con estensione .dictio pronto per essere importato tramite uno degli strumenti per l'analisi tematica. In tale dizionario ciascun cluster corrisponde a una categoria descritta tramite le sue parole caratteristiche, cioè da tutte le parole con un significativo valore del chi-quadro al suo interno;
- un file MyList.diz pronto per essere importato tramite la funzione Impostazioni Personalizzate. Poiché tale file contiene l'elenco alfabetico di tutte le parole con un significativo valore del chi-quadro, cioè di tutte le parole che determinano la differenze tra cluster tematici, il suo uso può consentire di ripetere alcune analisi con una modalità 'più selettiva' e discriminante.

12 - Verificare la qualità della partizione scelta e la coerenza semantica dei vari temi

Quando viene cliccato il pulsante Indici di Qualità (vedi sopra), T-LAB crea un file HTML in cui sono riportate varie misure.
Le prime di queste si riferiscono alla qualità della partizione in 'k' cluster, cioè - ad esempio - al rapporto tra varianza interna ed esterna.
Le seconde si riferiscono alla 'coerenza semantica' di ciascuno dei cluster, e più specificatamente alle similarità tra prime 10 parole caratteristiche di ogni tema.
Nel dettaglio:
- le prime 10 parole sono quelle con il più alto valore del chi-quadro;
- le misure di similarità sono calcolate usando il coefficiente del coseno;
- come nel caso dello strumento Associazioni di Parole, il coefficiente del coseno è calcolato verificando le co-occorrenze di ogni coppia di parole all'interno dei segmenti di testo definiti come contesti elementari.

13 - Esplorare Sequenze di Temi

A differenza dello strumento Sequenze di Temi incluso in un sottomenu T-LAB per l'analisi delle co-occorrenze, questa opzione è stata specificamente progettata per integrare l'analisi tematica dei contesti elementari. Più specificamente: il suo uso ha senso solo quando l'intero corpus può essere considerato come un discorso e/o quando le sue varie sezioni (ad esempio: capitoli di un libro, parti di una intervista, interventi di vari partecipanti a una conversazione o una discussione, etc.) si susseguono con un preciso ordine temporale.

In questo caso le relazioni analizzate sono quelle tra contesti elementari (fino a un massimo di 100.000) lungo la catena lineare del corpus, e ciascuno di essi - vuoi come 'predecessore' o come 'successore' - è trattato come una unità di analisi appartenente ad un cluster tematico (o come non classificato).

Tutti gli output forniti permettono all'utente di esplorare le relazioni sequenziali tra 'temi', sia in modo 'statico' che 'dinamico'. In particolare, tramite alcuni grafici animati che consentono di apprezzare la dinamica temporale delle sequenze, l'utente può verificare quando le persone sono impegnate su temi specifici (vedi, ad es., i punti sulla diagonale delle matrici nelle immagini seguenti) e quando passano da un tema dominante a un altro.

Passo dopo passo, di seguito viene fornita una breve descrizione delle varie opzioni disponibili.

(N.B.: Tutti gli output dell'esempio sono stati ottenuti tramite un'analisi tematica del libro The Politics of Climate Change di Antony Giddens pubblicata su sito T-LAB).

Quando è abilitato il pulsante Sequenze di Temi, cliccando su di esso diventa visibile ed attivo il seguente 'player'.

L'opzione '1' (vedi sopra) si riferisce al tipo di grafico scelto per la visualizzazione delle sequenze, sia all'interno dell'intero corpus che all'interno una parte di esso (vedi sopra opzione '2').

L'opzione 'matrice' rende disponibile un grafico 3D che riassume le relazioni tra predecessori e successori tramite barre colorate posizionate ai rispettivi incroci. In questo caso, quando sono visualizzati grafici 3D animati, l'incremento in altezza delle varie barre indica l'aumento delle occorrenze delle rispettive sequenze (vedi relazioni binarie tra 'predecessori' e 'successori' nel grafico seguente).

L'opzione 'spazio' rende disponibile un grafico 2d in cui le dimensioni (cioè percentuali) e le relazioni tra gruppi tematici sono rappresentate su un piano organizzato da due assi fattoriali selezionati dall'utilizzatore. In questo caso, quando sono visualizzati grafici animati, le dimensioni delle 'bolle' - che vengono continuamente riadattate a un totale pari al 100 % - indicano come la percentuali degli elementi appartenenti a ogni cluster tematico variano nel tempo e, contemporaneamente, il movimento delle frecce indica la direzione in cui i temi si susseguono.

In entrambi i casi appena descritti, dopo l'arresto del video (vedi pulsante 'pausa'), è possibile visualizzare due ulteriori output:

A - tabelle html che riassumono i rapporti tra predecessori e successori (vedi sotto);

B - file grafici che possono essere importati da software per l'analisi di rete.

N.B.: Il grafico precedente, che si riferisce al terzo capitolo del libro di Giddens, è stato creato per mezzo del software Gephi (vedi https://gephi.org/).