T-LAB Home
T-LAB 10.2 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Co-occurrence Toolkit
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Textos y Discursos como Sistemas Dinámicos
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Clasificación de Nuevos Documentos
Contextos Clave de Palabras Temáticas
Exportar Tablas Personalizadas
Editor
Importar-Exportar una lista de Identificadores
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Descomposición de Valores Singulares (SVD)


La Descomposición de Valores Singulares (SVD - Singular Value Decomposition - véase Wikipedia https://en.wikipedia.org/wiki/Singular-value_decomposition) es una técnica de reducción de dimensiones que, en minería de textos, puede utilizarse para descubrir las dimensiones latentes (o componentes) que determinan similitudes semánticas entre las palabras (es decir, unidades léxicas) o entre los documentos (es decir, unidades de contexto ).

T-LAB nos permite realizar un SVD de tres tipos de tablas de datos. En el primer caso (ver 'A' a continuación), la tabla de datos es una matriz de co-ocurrencias con - en filas y en columnas - las palabras clave seleccionadas. En el segundo caso (ver 'B' a continuación), la tabla de datos contextos elementales X palabras clave contendrá valores de presencia / ausencia (es decir, '1' y '0'). En el tercer caso (ver 'C' a continuación) la tabla de datos documentos X palabras clave contendrá valores de ocurrencia.

NOTA: Tenga en cuenta que, al analizar la matriz de co-ocurrencias cuyas filas y columnas son términos clave (ver 'A' a continuación), T-LAB proporciona vectores densos de alta calidad (es decir, word embeddings).

 

El procedimiento de análisis consta de los siguientes pasos:
1 - construcción de la tabla de datos a analizar (hasta 300,000 filas x 5,000 columnas);
2 - normalización TF-IDF y escalado de vectores de fila a longitud de unidad (norma euclidiana);
3 - extracción de las primeras 20 'dimensiones latentes' a través del algoritmo Lanczos.
NOTA:
- En el caso de las matrices de co-ocurrencia (ver "A" arriba), la normalización de los datos se obtiene usando la medida del coseno;
- Cuando se seleccionan las opciones avanzadas para el word embedding, T-LAB calcula los valores de PPMI (Positive Pointwise Mutual Information) y hace posible utilizar las primeras 50 dimensiones de la SVD;

Los resultados del análisis se muestran en tablas y gráficos.

En detalle:

Dos tablas, cuyas filas pueden ser unidades léxicas o unidades de contexto, tienen tantas columnas como las dimensiones extraídas.

En el caso de la tabla LEMAS (es decir, unidades léxicales), se muestra una columna más, en la que se informan los puntajes de importancia (ver a continuación).

NOTA: La puntuación (es decir el 'score') de importancia de cada lema se calcula sumando los valores absolutos de sus primeras 20 coordenadas (es decir, los vectores propios), cada uno multiplicado por lo valor propio correspondiente.

Cualquier tabla se puede ordenar en orden ascendente o descendente haciendo clic en cualquier encabezado de columna..
Para exportar cualquier tabla, solo use el botón derecho del mouse cuando se muestren los datos.
Tenga en cuenta que, la primera vez que se exporta una tabla de este tipo, los valores propios también se exportan. De esta forma, el usuario puede evaluar el peso relativo de cada dimensión, es decir el porcentaje de varianza explicado por cada una de ellas.

Al hacer clic en el botón Asociaciones (véase a continuación), se muestra una tabla adicional con las medidas de similitud (es decir, el coseno) de cada palabra clave. Además, cuando se hace clic en cualquier fila de dicha tabla, se muestra un gráfico con los datos correspondientes.

Los gráficos principales muestran las relaciones entre las palabras clave (es decir, lemmas) en las dimensiones seleccionadas (véase a continuación).

Por defecto, el cuadro anterior incluye los 100 lemas más importantes. Sin embargo, el usuario puede personalizar tanto el número de lemas como las características del gráfico.