www.tlab.it
Criterios Formales
En el caso de un corpus
constituido por un solo texto, y cuando el usuario no recurra a las
variables, no se
requiere ninguna otra operación: se puede pasar directamente
a la fase de importación.
Cuando, en cambio, el corpus está compuesto por
más de un texto y/o cuando se utilizan
variables, la preparación del corpus
se debe realizar a través del modulo Corpus
Builder que, de forma automática, respeta los siguientes
criterios:
Cada texto o subconjunto del mismo (las "partes" individuadas por
las variables) tienen que ir precedidas por una línea de
codificación.
Cada línea de codificación tiene este
formato:
- comienza con una cadena de
cuatro asteríscos (****) seguida por
un espacio en blanco. T-LAB lee esta cadena como: "aquí
comienza un texto o una unidad de contexto definida por el
usuario".
- continua con la adición de
cadenas compuestas por asteriscos
aislados y de etiquetas que definen casos (IDnumber), variables y las respectivas
modalidades.
- termina con "vuelta a
empezar".
Aquí hay algunos ejemplos.
La línea siguiente introduce un texto (o un subconjunto
del corpus) codificado con tres variables - EDAD, SEXO y OCU
(ocupación) - y sus modalidades (ADUL, FEM, PROF).
**** * EDAD _ADUL * SEXO _FEM * OCU_PROF
La línea siguiente introduce un texto (o un subconjunto
del corpus) codificado con las mismas variables y la etiqueta
IDnumber.
**** *IDnumber_0001 * EDAD _ADUL * SEXO _FEM * OCU_PROF
La línea siguiente introduce un texto (o un subconjunto
del corpus) codificado con dos variables: AÑO, PERI
(periódicos):
**** * AÑO _98 * PERI_PAÍS
En cada línea de codificación, las reglas
de T-LAB que se deben
respetar son las siguientes:
1) cada etiqueta (IDnumber, variables y
modalidades) no puede ser distanciada por los espacios en
blanco.
2) cada etiqueta - tanto en el caso de las variables como en el de
las modalidades - no puede superar 25 caracteres (min. 2).
3) cada etiqueta de variables se debe ligar a la modalidad
respectiva con un guión bajo ("_").
4) entre dos variables, es decir antes del asterisco siguiente, se
debe inserir un espacio en blanco.
5) cada variable y respectivas
modalidades se debe asignar
para cada subconjunto del corpus.
6) las
variables utilizables son máximo 50, cada
una con un máximo de 150 modalidades.
7) el número máximo de IDnumber está
fijado en 99.999 para textos cortos (Max. 2.000 caracteres cada
uno. Eje. respuestas a preguntas abiertas), y en 30.000 para los
demás casos.
|