www.tlab.it
Forma e Lemma
I software per l'analisi dei testi, in primo luogo,
riconoscono le cosiddette forme
grafiche, ovvero le stringhe di caratteri separati da spazi
vuoti.
Poi, a seconda degli algoritmi implementati o a seconda delle
categorie utilizzate dagli studiosi, si passa ai lessemi, ai lemmi,
alle parole chiave, etc.
Nei dizionari linguistici che consultiamo, ogni voce corrisponde a un lemma che - generalmente -
definisce un insieme di parole con la stessa radice lessicale (o
lessema) e che appartengono alla stessa categoria grammaticale
(verbo, aggettivo, etc.).
Le tabelle T-LAB,
per tutte le unità lessicali presenti nel database del corpus,
riportano due informazioni:
- la prima, denominata forma, contiene la trascrizione delle unità
lessicali (singole parole, lessie o
multiword) come "stringhe" riconosciute dal software;
- la seconda, denominata lemma, contiene le label (o tag) con la
quali sono state raggruppate e classificate le unità
lessicali.
A seconda dei casi, il lemma può essere:
- il risultato del processo di lemmatizzazione
automatica;
- una voce di un dizionario personalizzato;
- una categoria che indica un gruppo di sinonimi;
- una categoria di analisi del contenuto;
- etc.
|