T-LAB Home
T-LAB 10.2 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Co-occurrence Toolkit
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

n-gramma


In T-LAB un n-gramma è una sequenza di due (bi-gramma) o più parole chiave presenti all’interno dello stesso contesto elementare.

Il suo uso è riservato al calcolo delle co-occorrenze e, all’interno dello stesso contesto elementare, la contiguità delle parole considerate non tiene conto né delle ‘parole vuote’ (cioè stop-word) né della punteggiatura.

Prendiamo, ad esempio, il seguente contesto elementare:

L’Italia è una Repubblica democratica, fondata sul lavoro.

Supponendo che i cinque item in rosso siano inclusi nella nostra lista di parole chiave, la suddivisione in bi-grammi produce i seguenti contesti di co-occorrenza:

Italia & Repubblica
Repubblica & democratica
democratica & fondata
fondata & lavoro.

Diversamente, nel caso di tri-grammi il risultato sarebbe il seguente:

Italia & Repubblica & democratica
Repubblica & democratica & fondata
democratica & fondata & lavoro
fondata & lavoro.

E’ importante sottolineare che, nel caso dei contesti elementari, le co-occorrenze sono basate sulla presenza delle parole nello stesso ‘luogo’ (es. frase, paragrafo etc.); diversamente, nel caso degli n-grammi, le co-occorrenze sono basate su una relazione di contiguità.

In T-LAB l’analisi delle co-occorrenze basate su n-grammi può essere realizzata con lo strumento Associazioni di Parole. Inoltre, l’analisi markoviana dei bi-grammi può essere effettuata con lo strumento Analisi delle Sequenze.