T-LAB Home
T-LAB 10.2 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Co-occurrence Toolkit
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Lemmatizzazione


Nei dizionari linguistici che consultiamo, ogni voce corrisponde a un lemma che - generalmente - definisce un insieme di parole con la stessa radice lessicale (o lessema) e che appartengono alla stessa categoria grammaticale (verbo, aggettivo, etc.).

Di norma, la lemmatizzazione comporta che le forme dei verbi vengono ricondotte all'infinito presente, quelle dei sostantivi e degli aggettivi al maschile singolare, quelle delle preposizioni articolate alla loro forma senza articolo, e così via.

Ad esempio, le forme flesse "parliamo" e "parlato", risultanti dalla combinazione di un'unica radice (<parl->) con due diversi suffissi (<-iamo> <-ato>), sono ricondotte allo stesso lemma "parlare".
Si danno tuttavia dei casi in cui la lemmatizzazione non segue la regola della radice comune; in particolare, nella categoria dei verbi irregolari. Ad esempio, "vado" e "andremo" sono entrambe forme del lemma "andare".

Nella fase di importazione del corpus, T-LAB consente di effettuare un particolare tipo di lemmatizzazione automatica che segue la logica del seguente "albero".

Ovviamente, il dizionario di riferimento è quello implementato in T-LAB.

Le sigle delle quattro categorie sono utilizzate in molte tabelle, sempre nella colonna (o campo) "INF".


N.B.:
-
, la categoria "DIS" ("da distinguere") è costituita dai casi in cui T-LAB riconosce parole - in generale, nomi e aggettivi - per le quali è opportuno non applicare la lemmatizzazione standard; ciò per evitare che vengano appiattite le differenze tra i diversi significati delle forme singolari e plurali (ad es. "beni" e "bene", "culture" e "cultura"), oppure delle forme femminili e maschili ("singola" e "singolo", "tecnica" e "tecnico");
- a volte, per marcare casi di omografia, T-LAB aggiunge il carattere ('_') a uno dei lemmi corrispondenti.