Normalisation
Dans T-LAB, la
normalisation du corpus a un double but:
a) la détection correcte de mots en
tant que formes graphiques;
b) la solution de quelques cas
d'ambiguïté.
Ceci signifie que T-LAB, en
premier lieu, réalise un certain nombre de transformations du
fichier à analyser: élimination des espaces blancs en plus,
marquage des apostrophes, addition d'un espace blanc avant et après
des signes de ponctuation, réduction des majuscules, etc...
Deuxièmement, T-LAB
marque un ensemble de formes identifiées en tant que noms propres, convertit les locutions identifiées
comme multiwords dans des chaînes
unitaires (par exemple "en quelque sorte" -> "en_quelque_sorte";
"Ministère de la Justice" ->
"Ministère_de_la_Justice").
Dans la routine de normalisation, afin d'avoir une
identification correcte des formes graphiques,
T-LAB
emploie les séparateurs
suivants:
, ; : . ! ? ' " ( ) < > + / = [ ]
{ }
|