T-LAB Home
T-LAB PLUS 2019 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Contextos Clave de Palabras Temáticas
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Tablas de Contingencias
Editor
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Corpus y Subconjuntos


El corpus es una colección de uno o más textos seleccionados para el análisis.

Cada subconjunto del corpus se define por medio de una modalidad de una variable.

T-LAB permite explorar y analizar las relaciones entre las unidades de análisis de todo el corpus o de sus subconjuntos.

Algunos ejemplos de corpus:

  • un solo texto o documento que trate cualquier tema;
  • un conjunto de artículos tomados de la prensa, referentes al mismo tema;
  • una o varias entrevistas realizadas en el mismo proyecto de investigación;
  • un conjunto de respuestas a una pregunta abierta de un cuestionario;
  • una lista de direcciones sacada de internet;
  • uno o varios libros del mismo autor que afronten temas similares;
  • un conjunto de respuestas a una pregunta abierta de un cuestionario;
  • transcripciones de focus groups.

Algunos ejemplos de subconjuntos:

  • unos o más capítulos de un libro
  • unos o más artículos periodísticos publicados en el mismo año;
  • unas o más entrevistas con la misma categoría de gente;
  • un subconjunto de respuestas a una pregunta abierta.

NOTA: Algunos subconjuntos del corpus son los "clusters temáticos" de documentos o de contextos elementales obtenidos usando las herramientas correspondientes de T-LAB.

En el caso de un corpus compuesto por varios textos, para hacer un conjunto correctamente analizable, se requiere que todas sus piezas tengan dos características que las hagan comparables:

a) una cierta homogeneidad temática y/o de contexto en el cual se han producido, para obtener datos comparables;

b) relaciones equilibradas entre sus dimensiones, tanto en términos de frecuencias como en términos de kilobytes, para no incurrir en anomalías estadísticas.

En la lógica de T-LAB, el corpus es una base de datos organizada en registros y campos. Más exactamente, los registros se componen de las entidades registradas (textos, segmentos de texto, palabras) y los campos se componen de las etiquetas usadas para clasificar las diversas entidades (los autores del texto, los contextos de referencia, los tipos de palabra, etc.).

Véase Preparación del corpus.