T-LAB 10.2 - AIUDA EN RED - T-LAB Tools for Text Analysis

La Descomposición de Valores Singulares (SVD - Singular Value Decomposition - véase Wikipedia https://en.wikipedia.org/wiki/Singular-value_decomposition) es una técnica de reducción de dimensiones que, en minería de textos, puede utilizarse para descubrir las dimensiones latentes (o componentes) que determinan similitudes semánticas entre las palabras (es decir, unidades léxicas) o entre los documentos (es decir, unidades de contexto ).

T-LAB nos permite realizar un SVD de tres tipos de tablas de datos. En el primer caso (ver 'A' a continuación), la tabla de datos es una matriz de co-ocurrencias con - en filas y en columnas - las palabras clave seleccionadas. En el segundo caso (ver 'B' a continuación), la tabla de datos contextos elementales X palabras clave contendrá valores de presencia / ausencia (es decir, '1' y '0'). En el tercer caso (ver 'C' a continuación) la tabla de datos documentos X palabras clave contendrá valores de ocurrencia.

NOTA: Tenga en cuenta que, al analizar la matriz de co-ocurrencias cuyas filas y columnas son términos clave (ver 'A' a continuación), T-LAB proporciona vectores densos de alta calidad (es decir, word embeddings).

El procedimiento de análisis consta de los siguientes pasos:
1 - construcción de la tabla de datos a analizar (hasta 300,000 filas x 5,000 columnas);
2 - normalización TF-IDF y escalado de vectores de fila a longitud de unidad (norma euclidiana);
3 - extracción de las primeras 20 'dimensiones latentes' a través del algoritmo Lanczos.
NOTA:
- En el caso de las matrices de co-ocurrencia (ver "A" arriba), la normalización de los datos se obtiene usando la medida del coseno;
- Cuando se seleccionan las opciones avanzadas para el word embedding, T-LAB calcula los valores de PPMI (Positive Pointwise Mutual Information) y hace posible utilizar las primeras 50 dimensiones de la SVD;

Los resultados del análisis se muestran en tablas y gráficos.

En detalle:

Dos tablas, cuyas filas pueden ser unidades léxicas o unidades de contexto, tienen tantas columnas como las dimensiones extraídas.

En el caso de la tabla LEMAS (es decir, unidades léxicales), se muestra una columna más, en la que se informan los puntajes de importancia (ver a continuación).

NOTA: La puntuación (es decir el 'score') de importancia de cada lema se calcula sumando los valores absolutos de sus primeras 20 coordenadas (es decir, los vectores propios), cada uno multiplicado por lo valor propio correspondiente.

Cualquier tabla se puede ordenar en orden ascendente o descendente haciendo clic en cualquier encabezado de columna..
Para exportar cualquier tabla, solo use el botón derecho del mouse cuando se muestren los datos.Tenga en cuenta que, la primera vez que se exporta una tabla de este tipo, los valores propios también se exportan. De esta forma, el usuario puede evaluar el peso relativo de cada dimensión, es decir el porcentaje de varianza explicado por cada una de ellas.

Al hacer clic en el botón Asociaciones (véase a continuación), se muestra una tabla adicional con las medidas de similitud (es decir, el coseno) de cada palabra clave. Además, cuando se hace clic en cualquier fila de dicha tabla, se muestra un gráfico con los datos correspondientes.

Los gráficos principales muestran las relaciones entre las palabras clave (es decir, lemmas) en las dimensiones seleccionadas (véase a continuación).

Por defecto, el cuadro anterior incluye los 100 lemas más importantes. Sin embargo, el usuario puede personalizar tanto el número de lemas como las características del gráfico.