Unidad de Análisis
Las unidades de análisis de
T-LAB son de dos
tipos: unidades lexicales y
unidades de contexto.
A - las UNIDADES
LEXICALES son palabras, simples o "múltiple",
archivadas y clasificadas en base a algún criterio. En particular,
en la base de datos T-LAB, cada unidad lexical constituye un
registro clasificado con dos campos: palabra
y lema. En el primer campo (palabra) se enumeran las palabras así como
aparecen en el corpus, mientras que en el segundo (lema), se enumeran las etiquetas atribuidas a
grupos de unidades lexicales clasificadas según criterios
lingüísticos (ej. lematización) o a través
de diccionarios y plantillas semánticas definidas por el
usuario.
B - Las UNIDADES DE CONTEXTO son porciones de
texto en las que se puede dividir el corpus. En particular, en la
lógica T-LAB, las
unidades de contexto pueden ser de tres tipos:
B.1 documentos primarios
correspondientes a la subdivisión "natural" del corpus
(ej. entrevistas, artículos, respuestas a preguntas abiertas,
etc.), o sea a los contextos iniciales
definidos por el usuario;
B.2 contextos elementales,
correspondientes a unidades sintagmáticas de una o más frases y
definidas de modo automático (o semi-automático) por
T-LAB. Por tanto, en
la base de datos T-LAB cada documento primario
está constituido por uno o más contextos elementales;
B.3 subconjuntos del corpus que
corresponden a grupos de documentos primarios atribuibles a la
misma "categoría" (es. entrevistas de "hombres" o de "mujeres",
artículos de un determinado año o de un determinado periódico, y
así sucesivamente).
|