T-LAB Home
T-LAB 10.2 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Co-occurrence Toolkit
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Singular Value Decomposition


La Singular Value Decomposition (SVD - vedi Wikipedia https://en.wikipedia.org/wiki/Singular-value_decomposition) è una tecnica per la riduzione delle dimensioni, che - in Text Mining - può essere utilizzata per verificare le dimensioni latenti (o componenti) che determinano le somiglianze semantiche tra parole (cioè unità lessicali) o tra documenti (cioè unità di contesto).

T-LAB ci consente di eseguire una Singular Value Decomposition di tre tipi di tabelle dati. Nel primo caso (vedi 'A' sotto), la tabella dati è una matrice delle co-occorrenze con - in riga e in colonna - le parole chiave selezionate. Nel secondo caso (vedi 'B' sotto), la tabella dati contesti elementari X parole chiave conterrà valori di presenza / assenza (cioè '1' e '0'). Nel terzo caso (vedi "C" sotto), la tabella dati documenti X parole chiave conterrà valori di occorrenza.
N.B.: Si noti che, quando vengono analizzate matrici di co-occorrenze, le cui righe e colonne sono termini chiave (vedere 'A' di seguito), T-LAB fornisce vettori densi di alta qualità (cioè word embeddings).

La procedura di analisi consiste dei seguenti passaggi:
1 - costruzione della tabella dati da analizzare (fino a 300.000 righe x 5.000 colonne);
2 - normalizzazione TF-IDF e applicazione della norma euclidea (i.e. trasformazione di tutti i vettori a lunghezza '1');
3 - estrazione delle prime 20 'dimensioni latenti' attraverso l'algoritmo di Lanczos.
N.B.:
-
Nel caso della matrici di co-occorrenze (vedi 'A' sopra), la normalizzazione dei dati è ottenuta mediante la misura del coseno;
- Quando sono selezionate le opzioni avanzate per il word embedding, T-LAB calcola i valori PPMI (Positive Pointwise Mutual Information) e rende possibile l'utilizzo delle prime 50 dimensioni della SVD.

I risultati dell'analisi sono sintetizzati in tabelle e grafici.

Nel dettaglio:

Due tabelle - le cui righe possono essere unità lessicali o unità di contesto - hanno tante colonne quante sono le dimensioni estratte (cioè 20).

Nel caso della tabella LEMMI (cioè unità lessicali), viene visualizzata un'ulteriore colonna in cui vengono riportati punteggi di importanza (vedi 'score' nella tabella seguente).

N.B.: Il punteggio di importanza di ciascun lemma è calcolato sommando i valori assoluti delle sue prime 20 coordinate (cioè gli autovettori), ciascuno moltiplicato per l' autovalore corrispondente.

Qualsiasi tabella può essere ordinata in ordine crescente o decrescente facendo clic su qualsiasi intestazione di colonna.
Per esportare qualsiasi tabella, basta usare il tasto destro del mouse quando vengono visualizzati i relativi dati.
Si noti che, la prima volta che viene esportata una tabella di questo tipo, vengono esportati anche gli autovalori. In questo modo l'utente può agevolmente valutare il peso relativo di ogni dimensione, cioè la percentuale di varianza spiegata da ciascuna delle 20 dimensioni.

Facendo clic sul pulsante Associazioni, viene visualizzata un'ulteriore tabella con le misure di somiglianza (cioè i coefficienti del coseno) relative ad ogni parola. Inoltre, quando si fa clic su una qualsiasi riga di tale tabella, viene visualizzato un grafico con i dati corrispondenti.

I grafici principali mostrano le relazioni tra i termini chiave (cioè i lemmi) sulle dimensioni selezionate (vedi sotto).

Per impostazione predefinita, il grafico di cui sopra include i 100 lemmi più importanti. Tuttavia, l'utilizzatore può personalizzare sia il numero di lemmi sia le caratteristiche del grafico.