T-LAB Home
T-LAB 10.2 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Co-occurrence Toolkit
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Textos y Discursos como Sistemas Dinámicos
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Clasificación de Nuevos Documentos
Contextos Clave de Palabras Temáticas
Exportar Tablas Personalizadas
Editor
Importar-Exportar una lista de Identificadores
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Especificidades


NOTA: Las imagenes contenidas en este apartado hacen referencia a una versión anterior de T-LAB, ya que el interfaz de T-LAB 10 cambia ligeramente. En particular, a partir de la versión 2021, una galería de imágenes de acceso rápido que funciona como un menú adicional permite cambiar entre varias salidas con un solo clic.Además, el usuario puede evaluar fácilmente similitudes (es decir, coseno) y diferencias (es decir, Inter -Distancia textual) entre subconjuntos de corpus (de 2 a 150), y también para detectar documentos duplicados y casi duplicados (ver imágenes a continuación).

Esta herramienta de T-LAB nos permite verificar cuáles son las unidades lexicales (es decir, palabras, lemas o categorías) típicas o exclusivas de un texto o de un subconjunto del corpus definido por una variable categorial. Además, permite localizar las unidades de contexto características de los diferentes subconjuntos en análisis (por ejemplo las frases 'típicas' que mejor diferencian a los discursos de los diferentes líderes políticos).

Más en detalle:

Las unidades lexicales típicas, definidas por las proporciones de las respectivas ocurrencias (es decir, por su sobre/sub-utilización, exceso/carencia de uso), se eligen en base al cálculo del Chi-cuadrado o del valor-test;
Las unidades de contexto características se obtienen calculando y sumando los valores TF-IDF normalizados asignados a las palabras que componen cada frase o párrafo.

El análisis de especificidades permite que realicemos dos tipos de comparaciones concernientes filas y columnas de las tablas de contingencia:

1- entre una parte (ej. el subconjunto "A") y el todo (ej. todo el corpus analizado, "B");

2- entre parejas de subconjuntos del corpus ("A" y "B").

En ambos casos pueden ser analizadas tanto las Especificidades relativas a las intersecciones, como las relativas a las diferencias.

Las modalidades del cálculo se muestran en la entrada correspondiente del glosario.

Las unidades lexicales consideradas pueden ser todas (configuración automática) o solamente ésas seleccionadas por el usuario (configuración personalizada).

En sucesión, los cuatro tipos de comparaciones posibles:

1.1 - parte/todo: unidades lexicales "típicas"

Las llaves de lectura son las siguientes:

- LEMA = unidades lexicales típicas (en exceso o en defecto);
- SUB = ocurrencias de cada LEMA en el Subconjunto;
- TOT = ocurrencias de cada LEMA en el Corpus o en los dos Subconjuntos (véase 2.1);
- CHI2 = valor del chi cuadrado (o VTEST = Valor Test);
- (p) = probabilidad asociada a cada valor del chi-cuadrado (def=1).

Haciendo clic en los ítems de las tablas, es posible crear varios tipos de gráficos.

 

1.2 - parte/todo: unidades lexicales "exclusivas"

2.1- subconjunto/subconjunto: unidades lexicales "típicas"

2.2 - subconjunto/subconjunto: unidades lexicales "exclusivas"

En cada subconjunto analizado es posible verificar cuáles son los contextos elementales (es decir, frases o párrafos) que mejor lo distinguen de los demás. En este caso, la 'especificidad' llega del cálculo de los valores TF-IDF normalizados. Más en concreto, el score asignada a cada contexto elemental (véase imagen siguiente) es el resultado de la suma de los valores TF-IDF de las palabras que lo componen.

Todas las tablas de contingencia pueden ser fácilmente exploradas y nos permiten crear varios tipos de gráficos. Además, haciendo clic en específicas células de la tabla (véase abajo), es posible crear un archivo HTML que incluye todos los contextos elementales en que la palabra en la fila está presente en el subconjunto correspondiente.

Finalmente, haciendo clic en la opción correspondiente (véase abajo), se genera un archivo diccionario con la extensión .dictio, que está listo para ser importado por cualquier herramienta de T-LAB para el análisis temático. Tal diccionario incluye todas las palabras típicas de la variable categórica seleccionada.