T-LAB Home
T-LAB 10.2 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Co-occurrence Toolkit
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Textos y Discursos como Sistemas Dinámicos
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Clasificación de Nuevos Documentos
Contextos Clave de Palabras Temáticas
Exportar Tablas Personalizadas
Editor
Importar-Exportar una lista de Identificadores
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Criterios Formales


En el caso de un corpus constituido por un solo texto, y cuando el usuario no recurra a las variables, no se requiere ninguna otra operación: se puede pasar directamente a la fase de importación.

Cuando, en cambio, el corpus está compuesto por más de un texto y/o cuando se utilizan variables, la preparación del corpus se debe realizar a través del modulo Corpus Builder que, de forma automática, respeta los siguientes criterios:

Cada texto o subconjunto del mismo (las "partes" individuadas por las variables) tienen que ir precedidas por una línea de codificación.


Cada línea de codificación tiene este formato:

- comienza con una cadena de cuatro asteríscos (****) seguida por un espacio en blanco. T-LAB lee esta cadena como: "aquí comienza un texto o una unidad de contexto definida por el usuario".

- continua con la adición de cadenas compuestas por asteriscos aislados y de etiquetas que definen casos (IDnumber), variables y las respectivas modalidades.

- termina con "vuelta a empezar".

Aquí hay algunos ejemplos.

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con tres variables - EDAD, SEXO y OCU (ocupación) - y sus modalidades (ADUL, FEM, PROF).

**** * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con las mismas variables y la etiqueta IDnumber.


**** *IDnumber_0001 * EDAD _ADUL * SEXO _FEM * OCU_PROF

La línea siguiente introduce un texto (o un subconjunto del corpus) codificado con dos variables: AÑO, PERI (periódicos):

**** * AÑO _98 * PERI_PAÍS


En cada línea de codificación, las reglas de T-LAB que se deben respetar son las siguientes:

1) cada etiqueta (IDnumber, variables y modalidades) no puede ser distanciada por los espacios en blanco.
2) cada etiqueta - tanto en el caso de las variables como en el de las modalidades - no puede superar 25 caracteres (min. 2).
3) cada etiqueta de variables se debe ligar a la modalidad respectiva con un guión bajo ("_").
4) entre dos variables, es decir antes del asterisco siguiente, se debe inserir un espacio en blanco
.
5) cada variable y respectivas modalidades se debe asignar para cada subconjunto del corpus.
6) las variables utilizables son máximo 50, cada una con un máximo de 150 modalidades.

7) el número máximo de IDnumber está fijado en 99.999 para textos cortos (Max. 2.000 caracteres cada uno. Eje. respuestas a preguntas abiertas), y en 30.000 para los demás casos.