T-LAB 10.2 - AIUDA EN RED - T-LAB Instrumentos para el análisis de textos

NOTA: Las imagenes contenidas en este apartado hacen referencia a una versión anterior de T-LAB, ya que el interfaz de T-LAB 10 cambia ligeramente. Además: a) hay una nueva opción que permite al usuario trazar un Mapa MDS con las palabras más relevantes; b) una nueva herramienta (Graph Maker) permite crear y exportar diferentes tipos de gráficos dinámicos en formato HTML; c) cliqueando con el botón derecho del ratón sobre las tablas que incluyen las palabras clave se accede al listado de las opciones avanzadas. Por ejemplo, al seleccionar la opción 'muestra elementos del ítem seleccionado' es posible visualizar las concordancias a ello asociadas con un simple clic del ratón; d) una galería de imágenes de acceso rápido que funciona como un menú adicional permite cambiar entre varias salidas con un solo clic.
Algunas de estas nuevas características se destacan en la imagen de abajo

Esta herramienta de T-LAB permite comprobar las relaciones de co-ocurrencia y de semejanza que, dentro del corpus o de sus sub-conjuntos, determinan el significado local de las palabras clave seleccionadas por el usuario.

Dicha comprobación puede hacerse mediante las opciones predeterminadas (A) o mediante las opciones personalizadas por el usuario (B).

En el primer caso (A: opciones predeterminadas) las co-ocurrencias de las palabras se calculan dentro de los contextos elementales seleccionados durante la importación del corpus (ejemplo: frases, fragmentos, párrafos, etc.). En el segundo caso (B: opciones personalizadas), las co-ocurrencias pueden ser calculadas también dentro de las secuencias de palabras que presentan longitud variable (es decir, los n-gramas, véase sección del glosario correspondiente). En este último caso, también es posible decidir el umbral mínimo (es decir, la frecuencia) a partir del cual considerar las co-ocurrencias.

Una vez calculadas las co-ocurrencias entre todas las palabras escogidas por el usuario aparece la ventana de trabajo (véase abajo).

En la parte izquierda de la ventana se ubica una tabla. Dicha tabla contiene las palabras y los valores numéricos que indican la cantidad de contextos elementales o de n-gramas en los que aparecen dichas palabras.

Simplemente con cliquear en los ítems de la tabla (véase arriba, opción 1) o en los puntos de los gráficos (opción 2), se hace posible comprobar las asociaciones de cada una de las palabras objetivo. Por otra parte, si se cliquea en las etiquetas incluidas en la tabla (opción 3), es posible verificar los ítems incluidos en cada lema.

En cada paso, la selección de las palabras asociadas se realiza bien calculando un Índice de Asociación (véase el glosario en la sección correspondiente) o bien utilizando un índice de semejanza de segundo orden. En el primer caso, hay seis índices a disposición (Coseno, Dice, Jaccard, Equivalencia, Inclusión y Información Mutua), cuyo calculo es de rápida ejecución. Sin embargo, en el caso de los índices de segundo orden, el análisis puede tardar algunos minutos, especialmente si el corpus tiene una extensión elevada. Además, es importante considerar que, en el caso de los índices de segundo orden, la fiabilidad de los resultados aumenta al aumentar las palabras incluidas en la lista.

Para cada pregunta, T-LAB produce gráficos y tablas.

Tanto las tablas como los gráficos pueden ser guardados utilizando los apropiados botones.

En el diagrama radial (véase abajo), el lema seleccionado está en el centro. Los otros se distribuyen alrededor de él, cada uno a una distancia proporcional a su grado de asociación. Por tanto, las relaciones significativas son del tipo uno a uno, entre el lema central y cada uno de los otros.

NOTA: Cada clic en un punto produce un nuevo gráfico y, usando el botón derecho del ratón, es posible abrir una caja de diálogo que permite varias personalizaciones.

Las tablas contienen datos que permiten verificar las relaciones entre ocurrencias y co-ocurrencias de las palabras que presentan la asociación más fuerte con aquella seleccionada (máximo 50).

Las llaves de lectura son las siguientes:

LEMA (A) = lema seleccionado;
LEMA (B) = lemas asociados al LEMA (A);
COEFF = valor del índice de asociación seleccionado;
TOT CE = total de los contextos elementales (CE) o de los n-gramas analizados;
CE_A = total de los CE en los que está presente el lema seleccionado (A);
CE_B = total de los CE en los que está presente cada lema asociado (B);
CE_AB = total de los CE en los que los lema "A" e "B" están asociados (co-ocurrencias);
CHI2 = valor del chi cuadrado para verificar la significación de las co-ocurrencias;
(p) = probabilidad asociada a cada valor del chi-cuadrado (def=1).

En el caso del chi cuadrado, para cada pareja de lemas ("A" y B") la estructura de la tabla analizada es la siguiente:

En la que : nij = CE_AB ; Nj = CE_A ; Ni = CE_B ; N = TOT CE.

Un clic en cada etiqueta (ej. "precio") de la tabla permite de guardar un archivo con todos los contextos elementales donde empareja con la palabra seleccionada (ej. co-ocurrencias de "economía" y " precio").

Ulteriores gráficos (Histogramas) permiten apreciar los valores del coeficiente utilizado y los porcentajes de co-ocurrencias (véase abajo).

Haciendo clic en el botón de abajo a la izquierda, el usuario puede exportar diferentes tipologías de tablas (véase imagen siguiente).

Otra ventana de T-LAB (véase imagen siguiente, paso 1) permite crear archivos gráficos que se pueden editar mediante los softwares para el network analysis, como Gephi, Pajek, Ucinet, yEd y otros. En este caso, los nudos de la red están formados por las palabras asociadas con la palabra objetivo. Las tres opciones disponibles son: seleccionar los ítems (es decir, los nudos) a insertar en los gráficos (véase abajo, pasos 2 y 3), exportar la matriz de adyacencia correspondiente (véase abajo, paso 4), exportar el tipo de archivo grafico seleccionado (véase abajo, paso 5).

NOTA: En T-LAB 10 la ventana que se muestra a continuación ha sido sustituida por la herramienta Graph Maker.

Por ejemplo, los archivos en formato .GML exportados por T-LAB permiten realizar gráficos como los siguientes.

N.B.: El primero de los gráficos se ha creado por medio de Gephi (https://gephi.org/ ), el segundo por medio de yEd (http://www.yworks.com/en/products_yed_download.html/ ), ambos softwares disponibles como descarga gratuita.

Las modalidades de cálculo de los diferentes índices de asociación (o proximidad) están indicadas en la sección correspondiente del Manual/Aiuda (véase glosario). Tal y como se podrá observar, todos estos índices se obtienen mediante una normalización de los valores de co-ocurrencia vinculados a las parejas de palabras. Consecuentemente, en los cálculos de primer orden, dos palabras que no co-ocurren obtendrían un índice de asociación igual a '0'. Sin embargo, los índices de segundo orden evidencian fenómenos de semejanza relacionados con el uso (y, por ende, con el significado) de las palabras que no dependen directamente de sus co-ocurrencias. De hecho, en este caso, dos palabras que no co-ocurren pueden llegar a tener un índice de asociación muy elevado.

Utilizando algunos conceptos de la Lingüística Estructural, podemos afirmar que, mientras los índices de 'primer orden' permiten destacar fenómenos asociados al eje sintagmático (combinación y proximidad 'in praesentia', es decir, palabras que dentro de una frase concreta están 'una al lado de la otra'), los índices de 'segundo orden' destacan fenómenos vinculados al eje paradigmático (asociación y semejanza 'in absentia', es decir relaciones de casi-sinonimia entre dos o más términos usados por el mismo autor).

Para comprender la manera con la que T-LAB calcula los índices de 'segundo orden' es útil recordar que los índices de 'primer orden' pueden usarse para construir matrices de proximidad como la siguiente (A).

Matriz 'A': semejanza de primer orden.

En esta matriz simétrica (A), el valor 0.373 (en amarillo) coincide con el índice de 'primer orden' más alto, e indica la asociación entre las palabras 'w_03' y 'w_10'. Más en concreto, se trata de un índice de equivalencia obtenido dividendo el cuadrado de sus co-ocurrencias entre el producto de sus ocurrencias (360^2/627*553).

A partir de la matriz recién descrita (A), T-LAB construye una segunda matriz (B). Para ello, se calculan los cosenos de las comparaciones entre todas las columnas que incluyen los índices de 'primer orden' (véase matriz A). Observando la tabla 'B', es posible constatar cómo el valor de 'semejanza' más elevado es aquel que caracteriza la relación entre las palabras 'w_06' e 'w_08'. Esto quiere decir que los vectores correspondientes (véanse las dos columnas en verde de la matriz 'A') son muy parecidos entre sí (coseno = 0.905), pese a que la asociación de 'primer orden' entre las dos palabras en cuestión es bastante baja (0.063).

Matriz 'B': semejanza de segundo orden.

Dicho de otro modo, un índice de primer orden se obtiene a partir de una fórmula que incluye valores de co-ocurrencia y ocurrencia, mientras que un índice de segundo orden se obtiene multiplicando dos vectores normalizados.

Más allá de las modalidades de cálculo, cabe recordar que en los dos casos ('A' e 'B') subyacen dos fenómenos distintos. En el primer caso ('A') nos centramos en las co-ocurrencias mientras que, en el segundo caso ('B'), y independientemente de las co-ocurrencias, nos centramos en la semejanza entre 'perfiles' cuyos datos hacen referencia al uso de palabras por parte de los autores de los textos analizados.

A modo de ejemplo, se considera el análisis de primer orden de Pinocho, donde el término 'hada' está principalmente asociado (véanse co-ocurrencias) con 'buena' y 'pelo turquesa'. Sin embargo, en el análisis de segundo orden el término que resulta ser más parecido a 'hada' es 'mamá'. Todo ello, pese a que las co-ocurrencias entre los términos 'hada' y 'mamá' son, dentro del cuento de Collodi, prácticamente irrelevantes (sólo 3).

Las tablas visualizadas por T-LAB permiten verificar tanto las semejanzas de segundo orden (véase abajo columna SIM-II°), como los índices de primer orden (EQU-I°, es decir, índices de equivalencia).
Además, cliqueando en cada ítem de esta tabla, es posible abrir unos archivos HTML que permiten verificar qué características ('features') determinan las semejanzas de segundo orden entre cada pareja de palabras. Por ejemplo, en la siguiente tabla se observa como la semejanza de segundo orden entre 'economia' y 'inflación' está determinada principalmente por características compartidas como 'monetario', 'internacional', 'estructural', etc..