Normalización
En T-LAB,
la normalización del corpus tiene una meta doble:
a) permitir una detección correcta de las palabras como
formas gráficas;
b) resolver previamente algunos casos de
ambigüedad.
Esto significa que T-LAB, en
primer lugar, realiza una serie de transformaciones del archivo que
se está analizando: eliminación de los espacios vacios en exceso,
adición del espacio después de signos de puntuación, reducción de
las mayúsculas, etc.
En segundo lugar, T-LAB marca
una serie de cadenas reconocidas como nombres
propios (de persona y lugar); por tanto, convierte las
secuencias de formas gráficas reconocidas como multipalabras en cadenas unitarias, para
utilizarlas como tales durante el proceso de análisis ("en otras
palabras" y "en tal caso" se transforman respectivamente en
"en_otras_palabras" y "en_tal_caso").
Los parámetros de estas operaciones no pueden ser
modificados por el usuario.
En la fase de normalización, para obtener un
reconocimiento correcto de las formas gráficas, T-LAB utiliza la
siguiente lista de separadores:
, ; : . ¡! ¿? ' " ( ) < > + / = [ ] {
}
|