www.tlab.it
Contextos
Elementales
Durante la fase de la importación, T-LAB lleva a
cabo una segmentación del corpus en contextos elementales, para facilitar
las exploraciones del usuario y, sobre todo, para efectuar los
análisis que requieren el cómputo de las co-ocurrencias.
Según la elección del usuario, los contextos
elementales pueden ser:
1 - Frases
Contextos elementales que terminan con signos de
puntuación (.?!) y que no superan longitud máxima de 1.000
caracteres.
2 - Fragmentos
Contextos elementales de longitud comparable y compuestos
de uno o más enunciados.
En este caso, las reglas de segmentación usadas por
T-LAB son las
siguientes:
- considerar como contexto elemental cada
secuencia de palabras interrumpida por el punto y a parte y cuyas
dimensiones sean inferiores a la longitud de 400
caracteres;
- en el caso en el que, dentro de la longitud
máxima, no haya ningún punto y a parte, buscar, en el orden, otros
signos de puntuación (? ! ; : ,). Si no se encontraran, segmentar
en base a un criterio estadístico, pero sin truncar las unidades
lexicales.
3 - Párrafos
Contextos elementales que terminan con signos de
puntuación (.?!) y retorno del carro (longitud máxima: 2.000
caracteres).
4 - Textos
Breves
Esta opción se permite solamente cuando la longitud
máxima de textos no supera los 2.000 caracteres (por ejemplo, las
respuestas a preguntas abiertas).
NOTA:
- El fichero corpus_segments.dat contiene el resultado de
la segmentación del corpus;
- En T-LAB, la opción
concordancias permite verificar los
contextos elementales en los que está presente cada palabra (o
lema).
|