T-LAB Home
T-LAB 10.2 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Co-occurrence Toolkit
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Textos y Discursos como Sistemas Dinámicos
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Clasificación de Nuevos Documentos
Contextos Clave de Palabras Temáticas
Exportar Tablas Personalizadas
Editor
Importar-Exportar una lista de Identificadores
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Preparar un Corpus (Corpus Builder)


NOTA: Las imagenes contenidas en este apartado hacen referencia a una versión anterior de T-LAB, ya que el interfaz de T-LAB 10 cambia ligeramente. Además, esta herramienta incluye dos ulteriores botones: a) uno para activar la opción Text Screening, en el caso de que el corpus no supere los 20 MB, y b) otro que permite la importación inmediata de los materiales textuales (véase imagen siguiente).

Esta herramienta ha sido diseñada para facilitar tanto la preparación de diferentes materiales textuales, como su transformación en un único archivo corpus listo para la importación en T-LAB.

De forma más concreta, esta herramienta permite ejecutar rápidamente las siguientes operaciones:

1. Importar automáticamente distintas tipologías de archivos;
2. Editar y modificar los textos importados;
3. Gestionar el uso de variables categóricas;
4. Guardar el resultado de un trabajo en un archivo que pueda ser directamente importado por T-LAB;
5. Verificar y modificar cualquier archivo corpus cuyo formato sea compatible con T-LAB.

Si bien la manera de importar los archivos (véase arriba '1') varia en base a los formatos que estos tengan, todas las demás operaciones siguen el mismo procedimiento.

A continuación, se propone una breve descripción de las maneras de importar las diferentes tipologías de archivos.

A - Importar un archivo en formato de tabla (CSV, .SAV, .JSON, .XML, .XLS, XLSX, .MDB, .ACCDB)

Para importar un único archivo que incluya hasta 30.000 entradas se puede utilizar tanto la opción 'Open Table' como el método drag and drop (NB: cuando ningún texto supera los 2.000 caracteres, se extiende a 99.999 el número máximo de entradas que se pueden importar).

Dicho archivo puede estar compuesto por diferentes columnas. Éstas pueden contener diferentes tipologías de datos:
- Variables categoriales (una por cada columna, hasta un máximo de 50)
- Textos a analizar (sólo una columna)
- IDnumbers. Es decir, identificativos de unidades de contexto o sujetos/casos.

N.B.: La presencia de variables categóricas e IDnumbers es opcional. Sin embargo, la presencia de por lo menos una columna de texto es obligatoria.

A la hora de importar un archivo en formato .CSV, es necesario seleccionar de forma apropiada el delimitador a usar (véase abajo).

Cuando se importan archivos Excel o Access, sólo se puede seleccionar una tabla (véase abajo).

B - Importación de textos y documentos (.TXT, .DOC, .DOCX, .PDF, .RTF, .HTML)

La opción 'Gather your Texts' (véase abajo) permite importar hasta un máximo de 30.000 documentos, bien de forma individual, bien mediante selección múltiple. Todo ello, mediante 3 posibles procedimientos.

El primer procedimiento ('Add your Documents') prevé la importación automática de archivos .TXT, .DOC, .DOCX, .PDF, .RTF.

El segundo procedimiento ('Add EmptyRecord') permite importar records de forma individual. En cada uno de ellos es posible copiar/pegar cualquier tipología de texto (véase abajo).

 

El tercer procedimiento ('Import Text from URL') permite descargar archivos HTML directamente desde Internet. A la vez, permite editar el contenido de estos archivos y, consecuentemente, importarlos a T-LAB.

 

C - Importación de un corpus ya codificado según los criterios de compatibilidad con T-LAB.

El uso de la opción 'Open Corpus' está especialmente pensado para los siguientes casos:

1 - Si el usuario quiere modificar la estructura de un archivo corpus ya codificado (eje. Añadir otros textos mediante los métodos presentados en la anterior sección 'B', modificar los nombres de las variables, y/o de las modalidades, etc.);
2 - Si el usuario quiere verificar/corregir los eventuales errores que pueda presentar una codificación del corpus realizada manualmente (es decir, sin utilizar la herramienta Corpus Builder);
3 - Si el usuario quiere importar un archivo corpus que tenga una codificación "bruta" (véase imagen siguiente). Es decir un archivos cuyas partes (documentos o entradas) están precedidas exclusivamente de una línea de texto compuesta por 4 asteriscos seguidos por un espacio ('**** ').

Para implementar cada una de las opciones recién descritas es suficiente seleccionar un único archivo mediante la opción 'Open Corpus'. También se puede arrastrar el archivo utilizando el método drag and drop.

Operaciones posteriores a la importación del archivo

Una vez finalizada la fase de importación de los archivos mediante Corpus Builder, es posible escoger la opción 'Check /Generate' y - sucesivamente - guardar el corpus a importar T-LAB. Esto, tanto en el caso en que no se quiera utilizar variables como en el caso en que ya se hayan efectuado las operaciones de codificación.

Si el corpus contiene codificaciones es importante acordarse de que, en cada uno de los 3 métodos de importación descritos anteriormente ('A', 'B', 'C'), los datos se visualizan en columnas diferentes. Éstas pueden tener distintas etiquetas:

- Variable, es decir variables categóricas cuyo uso es necesario cuando se quieren analizar las características de diferentes subconjuntos del corpus y las relaciones entre dichos subconjuntos;
- IDnumber, es decir, identificadores de casos/entradas y cuyo uso es opcional;
- My Texts, es decir textos a analizar y cuyo uso, obligatorio, está vinculado a una única columna;
- Exclude, se usa para indicar a Corpus Builder que no se deben utilizar los datos contenidos en la columna correspondiente.

Para todos los casos, valen las siguientes indicaciones:
- Para cada entrada, existe tanto la posibilidad de seleccionar como de deseleccionar (véase abajo '1 ');
- Los IDnumber pueden ser añadidos de forma automática (véase abajo '2');
- Los nombres de las variables pueden ser editados y modificados (véase abajo '3');
- Cada valor de la variable puede ser editado y modificado (véase abajo '4');
- Cada campo 'My Texts' puede ser editado y modificado (véase abajo '5').
.

Otros aspectos a tener en cuenta son:

- El número máximo de columnas con variables categóricas es 50. Además, cada una las variables debe tener un numero de valores comprendido entre un mínimo de 2 y un máximo de 150;
- En el caso de utilizar los IDnumber, sus valores deben ser progresivos y empezar por el 1 (eje. 1, 2, 3, etc.);
- Tanto en el caso de las variables como en el de las modalidades, cada etiqueta debe tener una extensión no superior a los 25 caracteres alfanuméricos (min. 2) y no tener espacios;
- En el modulo Corpus Builder los errores se visualizan en el cuadro abajo a la izquierda (véase abajo).

Uso de la herramienta Variable Manager

La herramienta 'Variable Manager' permite construir, editar, modificar y guardar cualquier esquema de codificación, incluso aquellos provenientes de corpus diferentes.
Cada esquema incluye el elenco de las variables y de sus valores correspondientes (véase abajo).

Para añadir las variables de otro corpus o de un esquema guardado anteriormente, es necesario seleccionar la opción '1' (véase arriba). Sin embargo, para añadir manualmente las variables y sus valores, hay que utilizar las opciones '2' y '3' consecutivamente. (véase arriba).

Para añadir los valores de las variables a las entradas es necesario proceder manualmente en una única sesión de trabajo (véase abajo).Esto es así, porque al guardar un esquema no se incluyen las modificaciones aportadas a cada entrada. De esta forma, en el caso en que el usuario tenga que codificar manualmente un corpus que incluya un número considerable de entradas y/o necesite más de una sesión de trabajo, se aconseja proceder de la siguiente manera:

1 - Importar todos los archivos/records que se considera se puedan codificar en una única sesión de trabajo;
2 - guardar el trabajo como corpus (véase opción 'Save' del menú Corpus Builder).

Después, en la sesión siguiente, reimportar el corpus anteriormente guardado (véase arriba, punto '2'), y añadir otros records/archivos y continuar.


Una vez el usuario haya terminado las operaciones que considere oportunas, éstas pueden ser chequeadas mediante la opción 'Check/Generate'. Si todo está bien hecho, ya es posible exportar ( A) o guardar (B) un corpus listo para la importación a T-LAB.


En el primer caso (A - véase abajo), Corpus Builder crea una nueva carpeta en el directorio ".. \ Mis documentos \ T-LAB PLUS\" y empieza automáticamente la importación del corpus.
NB: En este caso, la nueva carpeta tiene el mismo nombre del corpus.

En el segundo caso (B - véase abajo) el usuario puede guardar su corpus en cualquier carpeta desee. Sucesivamente, tiene que utilizar la opción de T-LAB "Importar un corpus".
NB: En este caso, se recomienda crear - todas las veces - una carpeta de trabajo que contenga sólo el archivo a importar.


.