www.tlab.it
Especificidades
NOTA: Las imagenes contenidas en este apartado hacen referencia a
una versión anterior de T-LAB, ya que el interfaz de T-LAB 10
cambia ligeramente. En particular, a partir de la versión 2021, una
galería de imágenes de acceso rápido que funciona como un menú
adicional permite cambiar entre varias salidas con un solo
clic.Además, el usuario puede evaluar fácilmente similitudes (es
decir, coseno) y diferencias (es decir, Inter -Distancia textual)
entre subconjuntos de corpus (de 2 a 150), y también para detectar
documentos duplicados y casi duplicados (ver imágenes a
continuación).
Esta herramienta de T-LAB nos
permite verificar cuáles son las unidades
lexicales (es decir, palabras, lemas o categorías)
típicas o exclusivas de un texto o de un subconjunto del
corpus definido por una variable categorial. Además, permite
localizar las unidades de contexto
características de los diferentes subconjuntos en análisis
(por ejemplo las frases 'típicas' que mejor diferencian a los
discursos de los diferentes líderes políticos).
Más en detalle:
Las unidades lexicales típicas,
definidas por las proporciones de las respectivas ocurrencias (es
decir, por su sobre/sub-utilización, exceso/carencia de uso), se
eligen en base al cálculo del Chi-cuadrado o del
valor-test;
Las unidades de contexto
características se obtienen calculando y sumando los valores
TF-IDF normalizados asignados a las palabras que componen cada
frase o párrafo.
El análisis de especificidades permite que realicemos dos
tipos de comparaciones concernientes filas y columnas de las tablas
de contingencia:
1- entre una parte
(ej. el subconjunto "A") y el todo (ej. todo el corpus analizado,
"B");
2- entre parejas de
subconjuntos del corpus ("A" y "B").
En ambos casos pueden ser analizadas tanto las
Especificidades relativas a las intersecciones, como las relativas a las
diferencias.
Las modalidades del cálculo se muestran en la entrada
correspondiente del glosario.
Las unidades lexicales consideradas pueden ser todas
(configuración automática) o solamente ésas seleccionadas por el
usuario (configuración
personalizada).
En sucesión, los cuatro tipos de comparaciones
posibles:
1.1 - parte/todo: unidades lexicales "típicas"
Las llaves de lectura son las siguientes:
- LEMA = unidades lexicales típicas (en exceso o en
defecto);
- SUB = ocurrencias de cada LEMA en el Subconjunto;
- TOT = ocurrencias de cada LEMA en el Corpus o en los dos
Subconjuntos (véase 2.1);
- CHI2 = valor del chi cuadrado (o VTEST = Valor Test);
- (p) = probabilidad asociada a cada valor del chi-cuadrado
(def=1).
Haciendo clic en los ítems de las tablas, es
posible crear varios tipos de gráficos.
1.2 - parte/todo: unidades lexicales "exclusivas"
2.1- subconjunto/subconjunto: unidades lexicales
"típicas"
2.2 - subconjunto/subconjunto: unidades lexicales
"exclusivas"
En cada subconjunto analizado es posible verificar cuáles son
los contextos elementales (es decir, frases o párrafos) que mejor
lo distinguen de los demás. En este caso, la 'especificidad' llega
del cálculo de los valores TF-IDF
normalizados. Más en concreto, el score asignada a cada
contexto elemental (véase imagen siguiente) es el resultado de la
suma de los valores TF-IDF de las palabras que lo componen.
Todas las tablas de contingencia pueden ser fácilmente
exploradas y nos permiten crear varios tipos de gráficos. Además,
haciendo clic en específicas células de la tabla (véase abajo), es
posible crear un archivo HTML que incluye todos los contextos
elementales en que la palabra en la fila está presente en el
subconjunto correspondiente.
Finalmente, haciendo clic en
la opción correspondiente (véase abajo), se genera un archivo
diccionario con la extensión .dictio,
que está listo para ser importado por cualquier herramienta de
T-LAB para el análisis temático. Tal diccionario incluye todas
las palabras típicas de la variable categórica seleccionada.
|