www.tlab.it
Criterios
Estructurales
Hay dos criterios estructurales que se
tienen que respetar: el tamaño del
corpus y su subdivisión en partes.
En cuanto al tamaño, todos los instrumentos T-LAB han sido
probados con un corpus de 90Mb, equivalente a 55.000 páginas en
formato texto.
Los límites para el tamaño
mínimo requieren diversos criterios de la evaluación; esto
es así porque, bajo un cierto umbral, el tamaño del corpus puede
perjudicar la fiabilidad de muchos análisis estadísticos. Basta
seguir estas simples instrucciones: utilice corpus con al menos
5.000 ocurrencias (aproximadamente 30 KB); si no, en el caso de
preguntas abiertas, un mínimo de 50 respuestas. De hecho,
en este último caso, cada respuesta constituye una unidad de
contexto diferente.
Para ser procesado, una corpus se puede componer de: un
único texto sin otras particiones, un único texto subdividido según
los criterios establecidos por el usuario (por ejemplo, un libro
dividido en capítulos), varios textos (por ejemplo, varias
entrevistas o respuestas a preguntas abiertas) clasificados
mediante el uso de etiquetas, que remiten a otras tantas variables o IDnumber.
En todos estos casos, el corpus se subdivide en
partes que se deben definir con los
criterios formales
exactos.
|