Normalizzazione del
corpus
In T-LAB ,
la normalizzazione del corpus ha un duplice obiettivo:
a) consentire una corretto riconoscimento delle
parole come forme
grafiche.
b) risolvere preliminarmente alcuni casi di
ambiguità.
Ciò comporta che T-LAB,
in primo luogo, effettua una serie di trasformazioni del file in
analisi: eliminazione di spazi vuoti in eccesso, marcatura degli
apostrofi, aggiunta di spazi dopo i segni di interpunzione,
riduzione delle maiuscole, etc.
In secondo luogo, T-LAB
marca una serie di stringhe riconosciute come nomi
propri (di persone e luoghi); quindi trasforma le
sequenze di forme grafiche riconosciute come locuzioni o multiwords in stringhe unitarie da utilizzare
come tali nel processo di analisi ( "nella misura in cui" e "il
punto di vista" diventano quindi rispettivamente
"nella_misura_in_cui" e "il_punto_di_vista).
I parametri di queste operazioni non sono
modificabili dall'utilizzatore.
Nella fase di normalizzazione, per il corretto
riconoscimento delle forme grafiche,
in T-LAB viene utilizzata la seguente
lista di separatori:
, ; : . ! ? ' " ( ) < > + / = [ ]
{ }
|