T-LAB 10.2 - HELP ON-LINE - T-LAB Tools for Text Analysis

Questo strumento T-LAB consente di individuare, esaminare e modellare i principali temi che emergono dai testi per poi - eventualmente - utilizzarli in ulteriori analisi, sia esse di tipo qualitativo (ad. es. per costruire griglie per l'analisi di contenuto) o di tipo quantitativo.

I temi emergenti, che sono descritti tramite il loro vocabolario caratteristico, cioè tramite insiemi di parole chiave (lemmi o categorie) co-occorrenti all'interno delle unità di contesto esaminate, possono essere infatti utilizzati per classificare quest'ultime (sia esse documenti o contesti elementari) e ottenere nuove variabili da utilizzare in ulteriori analisi T-LAB.

Una finestra di dialogo T-LAB (vedi sopra) consente di impostare due parametri di analisi.

In particolare:
- il parametro (A) consente di definire il numero di temi da ottenere. (Si noti che quanto maggiore è questo numero tanto più consistenti saranno le relazioni di co-occorrenza all'interno di ciascun tema; inoltre, se necessario, alcuni temi, ad esempio quelli ridondanti o difficili da interpretare, potranno essere eliminati successivamente);
- il parametro (B) consente di escludere dall'analisi qualsiasi unità di contesto che non contenga un numero minimo di parole chiave incluse nella lista utilizzata.

Solo quando si sceglie di personalizzare tutti i parametri di analisi (vedi sopra l'opzione 'Sì'), verrà visualizzata la finestra seguente e saranno disponibili ulteriori opzioni. (Si noti che nell'immagine seguente il numero di unità di contesto è determinato dal parametro "B" menzionato in precedenza).

La procedura automatica di analisi effettua i seguenti passi:

a -costruzione di una matrice documenti per parole, dove i documenti sono sempre contesti elementari corrispondenti alle unità di contesto (cioè frammenti, frasi, paragrafi) in cui il corpus è stato suddiviso;
b - analisi dei dati tramite un modello probabilistico che usa la Latent Dirichlet Allocation e il Gibbs Sampling (per ulteriori informazioni si vedano le corrispondenti voci di Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation; http://en.wikipedia.org/wiki/Gibbs_sampling;
c - descrizione di ogni tema mediante i valori di probabilità associati alle sue parole caratteristiche, sia esse "specifiche" o "condivise" da due o più temi..

Al termine del processo di analisi, l'utilizzatore può agevolmente effettuare le seguenti operazioni:

1 - esplorare le caratteristiche di ogni singolo tema;

2 - esplorare le relazioni tra i vari temi;

3 - rinominare o eliminare specifici temi;

4 - verificare la coerenza semantica dei vari temi;

5 - testare il modello ed assegnare i temi alle unità di contesto, sia esse documenti e/o contesti elementari;

6 - applicare il modello e creare una nuova variabile tematica da utilizzare con altri strumenti T-LAB;

7 - esportare un dizionario delle categorie che potrà essere utilizzato in ulteriori analisi.

Nel dettaglio:

1 - Esplorare le caratteristiche di ogni singolo tema

Il primo output che può essere consultato e salvato è costituito da una tabella con una sintesi di tutti i temi. E, quando lo si desideri, la stessa tabella può essere visualizzata usando il pulsante 'Anteprima' (vedi sotto).

Altri tipi di output sono accessibili selezionando una delle opzioni evidenziate nell'immagine seguente.

N.B.: In questo tipo di grafico (vedi sopra) "hight probability" indica una probabilità >=.75.

Quando viene selezionato un tema, facendo clic sull'opzione "Tabella Theme", è possibile verificare le sue caratteristiche; inoltre - facendo clic su qualsiasi parola nella tabella mostrata - diventa disponibile l'opzione per "eliminare" specifiche parole dal tema (vedi immagine seguente).

Le chiavi di lettura di questo tipo di tabella sono le seguenti:

IN THEME = occorrenze (tokens) di ogni parola all'interno del tema selezionato;
TOT = occorrenze (tokens) di ogni parola all'interno del corpus o del sottoinsieme analizzato;
IN (%) = peso percentuale di ogni parola all'interno del tema selezionato;
(p) = valore di probabilità associato a ogni relazione parola x tema;
TYPE = contrassegnato con "specific" quando la parola (con p = 1) appartiene solo al tema selezionato, e come "shared" negli altri casi (cioè quando la parola, in diverso modo, è presente in più di un tema).

Quando viene selezionato un tema, facendo clic sull'opzione "Mappa MDS" si possono facilmente esplorare le relazioni semantiche tra le parole che risultano più caratteristiche (vedere l'immagine seguente).

Inoltre, utilizzando lo strumento 'Graph Maker', diventano disponibili ulteriori opzioni grafiche (vedi le immagini seguenti).

Quando viene selezionato un tema, facendo clic sull'opzione 'contesti significativi', viene creato un file HTML in cui vengono visualizzati i primi 20 segmenti di testo, che corrispondono maggiormente alle caratteristiche del tema in questione (vedere l'immagine seguente).

2 - Esplorare le relazioni tra i vari temi

Tramite lo strumento Analisi delle Corrispondenze è possibile creare ed esplorare due tipi di tabelle di contingenza:

2.1) una tabella parole per temi (vedi sotto)

2.2) una tabella che incrocia i temi con le modalità variabile selezionata

Sono anche disponibili altre due opzioni grafiche che consentono di mappare le relazioni tra i vari temi / topic:

2.3) una Mappa MDS

2.4) grafici di rete ottenuti esportando / importando la tabella di adiacenza creata da T-LAB (vedi sotto)

N.B.: Questo grafico è stato creato utilizzando il software open-source Gephi (https://gephi.org/ ) per importare una tabella esportata tramite T-LAB.

3 - Rinominare o eliminare specifici temi

Per rinominare o eliminare specifici temi è sufficiente selezionare gli item corrispondenti (vedi sotto "A") e cliccare sul pulsante "rinominare/eliminare" (vedi sotto "B").

Quando compare il box con le varie opzioni (vedi sotto), a seconda dei propri obiettivi, l'utilizzatore può cambiare la label del tema (sia scegliendo tra le parole disponibili che digitandone una nuova; vedi sotto "C") oppure eliminare il tema selezionato con un click sull'apposito pulsante (vedi sotto "D").

4 - Verificare la coerenza semantica dei vari temi

Quando viene cliccato il pulsante 'Indici di Qualità', T-LAB calcola le similarità tra le prime dieci (top 10) parole caratteristiche di ogni tema.

Più specificatamente:
- le prime 10 parole sono quelle con il più alto valore di probabilità;
- le misure di similarità sono calcolate usando il coefficiente del coseno;
- come nel caso dello strumento Associazioni di Parole, il coefficiente del coseno è calcolato verificando le co-occorrenze di ogni coppia di parole all'interno dei segmenti di testo definiti come contesti elementari.

Come risultato, T-LAB crea un file HTML in cui i 'k' temi solo elencati con il rispettivo indice di 'coerenza semantica'.
N.B.: Poiché le misure di similarità variano con il variare delle parole selezionate, si raccomanda di ripetere la procedura ogni volta che qualcuna delle prime dieci parole di un qualche tema venga eliminata dall'utilizzatore.

5 - Testare il modello

Al termine dell'analisi dei dati (vedi sopra i punti "a" e "b" relativi alla procedura di analisi) ogni unità di contesto (es. un documento o un contesto elementare) risulta costituito da un una "mistura" di temi (o topics). Diversamente, il processo di classificazione utilizzato in questa fase consente di associare ogni unità di contesto al tema che più lo caratterizza. Ne risulta che, a questo punto, ogni tema diventa di fatto un cluster di unità di contesto.

Per questa ragione, quando viene selezionata l'opzione "Testare il modello" T-LAB produce due file XLS (vedi sotto) che consentono all'utilizzatore di verificare l'appartenenza di ogni unità di contesto a uno specifico tema.

N.B.: Nella tabella sopra riportata, ogni documento ha un valore di probabilità associato ad ogni tema.

6 - Applicare il modello

Dopo aver applicato e salvato il modello, poiché i temi sono archiviati da T-LAB come modalità di due nuove variabili che si riferiscono a cluster di contesti elementari (CONT_CLUST) e/o a cluster di documenti (DOC_CLUST), le relazioni tra gli stessi temi e/o tra le loro caratteristiche possono essere ulteriormente esplorati con diversi strumenti di analisi (vedi sotto).

Ad esempio, utilizzando lo strumento Associazioni di Parole e selezionando il sottoinsieme (cioè il tema) "Religione" è possibile creare il grafico seguente.

7 - Esportare un dizionario

Quando viene selezionata questa opzione, T-LAB crea un file dizionario con estensione .dictio pronto per essere importato tramite uno degli strumenti per l'analisi tematica. In tale dizionario ciascun categoria è descritta tramite le sue parole caratteristiche.