T-LAB 10.2 - AIUDA EN RED - T-LAB Instrumentos para el análisis de textos

En el caso de un corpus constituido por un solo texto, y cuando el usuario no recurra a las variables, no se requiere ninguna otra operación: se puede pasar directamente a la fase de importación.

Cuando, en cambio, el corpus está compuesto por más de un texto y/o cuando se utilizan variables, la preparación del corpus se debe realizar a través del modulo Corpus Builder que, de forma automática, respeta los siguientes criterios:

Cada texto o subconjunto del mismo (las "partes" individuadas por las variables) tienen que ir precedidas por una línea de codificación.

Cada línea de codificación tiene este formato:

- comienza con una cadena de cuatro asteríscos (****) seguida por un espacio en blanco. T-LAB lee esta cadena como: "aquí comienza un texto o una unidad de contexto definida por el usuario".

- continua con la adición de cadenas compuestas por asteriscos aislados y de etiquetas que definen casos (IDnumber), variables y las respectivas modalidades.

- termina con "vuelta a empezar".

Aquí hay algunos ejemplos.

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con tres variables - EDAD, SEXO y OCU (ocupación) - y sus modalidades (ADUL, FEM, PROF).

**** * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con las mismas variables y la etiqueta IDnumber.

**** *IDnumber_0001 * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con dos variables: AÑO, PERI (periódicos):

**** * AÑO _98 * PERI_PAÍS

En cada línea de codificación, las reglas de T-LAB que se deben respetar son las siguientes:

1) cada etiqueta (IDnumber, variables y modalidades) no puede ser distanciada por los espacios en blanco.
2) cada etiqueta - tanto en el caso de las variables como en el de las modalidades - no puede superar 25 caracteres (min. 2).
3) cada etiqueta de variables se debe ligar a la modalidad respectiva con un guión bajo ("_").
4) entre dos variables, es decir antes del asterisco siguiente, se debe inserir un espacio en blanco.
5) cada variable y respectivas modalidades se debe asignar para cada subconjunto del corpus.
6) las variables utilizables son máximo 50, cada una con un máximo de 150 modalidades.
7) el número máximo de IDnumber está fijado en 99.999 para textos cortos (Max. 2.000 caracteres cada uno. Eje. respuestas a preguntas abiertas), y en 30.000 para los demás casos.