www.tlab.it
n-gramma
In
T-LAB
un n-gramma è una sequenza di due (bi-gramma) o più parole chiave
presenti all’interno dello stesso
contesto elementare.
Il suo uso è riservato al calcolo delle co-occorrenze e,
all’interno dello stesso contesto
elementare, la contiguità delle parole considerate non tiene conto
né delle ‘parole vuote’ (cioè stop-word) né della
punteggiatura.
Prendiamo, ad esempio, il seguente contesto elementare:
L’Italia
è una
Repubblica democratica,
fondata
sul
lavoro.
Supponendo che i cinque item in rosso siano inclusi nella nostra
lista di parole chiave, la suddivisione in bi-grammi produce i
seguenti contesti di
co-occorrenza:
Italia & Repubblica
Repubblica & democratica
democratica & fondata
fondata & lavoro.
Diversamente, nel caso di tri-grammi il risultato sarebbe il
seguente:
Italia & Repubblica & democratica
Repubblica & democratica & fondata
democratica & fondata &
lavoro
fondata & lavoro.
E’ importante sottolineare che, nel caso
dei contesti elementari, le co-occorrenze sono basate sulla
presenza delle parole nello stesso ‘luogo’ (es. frase, paragrafo
etc.); diversamente, nel caso degli n-grammi, le co-occorrenze sono
basate su una relazione di contiguità.
In
T-LAB
l’analisi delle co-occorrenze basate su n-grammi può essere
realizzata con lo strumento Associazioni di
Parole. Inoltre, l’analisi markoviana dei bi-grammi può essere
effettuata con lo strumento Analisi delle Sequenze.
|