T-LAB 10.2 - AIUDA EN RED - T-LAB Instrumentos para el análisis de textos

NOTA: Las imagenes contenidas en este apartado hacen referencia a una versión anterior de T-LAB, ya que el interfaz de T-LAB 10 cambia ligeramente. En particular, a partir de la versión 2021, una galería de imágenes de acceso rápido que funciona como un menú adicional permite cambiar entre varias salidas con un solo clic.Además, el usuario puede evaluar fácilmente similitudes (es decir, coseno) y diferencias (es decir, Inter -Distancia textual) entre subconjuntos de corpus (de 2 a 150), y también para detectar documentos duplicados y casi duplicados (ver imágenes a continuación).

Esta herramienta de T-LAB nos permite verificar cuáles son las unidades lexicales (es decir, palabras, lemas o categorías) típicas o exclusivas de un texto o de un subconjunto del corpus definido por una variable categorial. Además, permite localizar las unidades de contexto características de los diferentes subconjuntos en análisis (por ejemplo las frases 'típicas' que mejor diferencian a los discursos de los diferentes líderes políticos).

Más en detalle:

Las unidades lexicales típicas, definidas por las proporciones de las respectivas ocurrencias (es decir, por su sobre/sub-utilización, exceso/carencia de uso), se eligen en base al cálculo del Chi-cuadrado o del valor-test;
Las unidades de contexto características se obtienen calculando y sumando los valores TF-IDF normalizados asignados a las palabras que componen cada frase o párrafo.

El análisis de especificidades permite que realicemos dos tipos de comparaciones concernientes filas y columnas de las tablas de contingencia:

1- entre una parte (ej. el subconjunto "A") y el todo (ej. todo el corpus analizado, "B");

2- entre parejas de subconjuntos del corpus ("A" y "B").

En ambos casos pueden ser analizadas tanto las Especificidades relativas a las intersecciones, como las relativas a las diferencias.

Las modalidades del cálculo se muestran en la entrada correspondiente del glosario.

Las unidades lexicales consideradas pueden ser todas (configuración automática) o solamente ésas seleccionadas por el usuario (configuración personalizada).

En sucesión, los cuatro tipos de comparaciones posibles:

1.1 - parte/todo: unidades lexicales "típicas"

Las llaves de lectura son las siguientes:

- LEMA = unidades lexicales típicas (en exceso o en defecto);
- SUB = ocurrencias de cada LEMA en el Subconjunto;
- TOT = ocurrencias de cada LEMA en el Corpus o en los dos Subconjuntos (véase 2.1);
- CHI2 = valor del chi cuadrado (o VTEST = Valor Test);
- (p) = probabilidad asociada a cada valor del chi-cuadrado (def=1).

Haciendo clic en los ítems de las tablas, es posible crear varios tipos de gráficos.

1.2 - parte/todo: unidades lexicales "exclusivas"

2.1- subconjunto/subconjunto: unidades lexicales "típicas"

2.2 - subconjunto/subconjunto: unidades lexicales "exclusivas"

En cada subconjunto analizado es posible verificar cuáles son los contextos elementales (es decir, frases o párrafos) que mejor lo distinguen de los demás. En este caso, la 'especificidad' llega del cálculo de los valores TF-IDF normalizados. Más en concreto, el score asignada a cada contexto elemental (véase imagen siguiente) es el resultado de la suma de los valores TF-IDF de las palabras que lo componen.

Todas las tablas de contingencia pueden ser fácilmente exploradas y nos permiten crear varios tipos de gráficos. Además, haciendo clic en específicas células de la tabla (véase abajo), es posible crear un archivo HTML que incluye todos los contextos elementales en que la palabra en la fila está presente en el subconjunto correspondiente.

Finalmente, haciendo clic en la opción correspondiente (véase abajo), se genera un archivo diccionario con la extensión .dictio, que está listo para ser importado por cualquier herramienta de T-LAB para el análisis temático. Tal diccionario incluye todas las palabras típicas de la variable categórica seleccionada.