T-LAB Home
T-LAB 10.2 - AIUDA EN RED Prev Page Prev Page
T-LAB
Introducción
Qué hace y qué permite hacer
Requisitos y prestaciones
Preparación del corpus
Preparación del corpus
Criterios Estructurales
Criterios Formales
Archivo
Importar un único archivo...
Preparar un Corpus (Corpus Builder)
Abrir un projecto ya existente
Configuraciones de Análisis
Configuración Automática y Personalizada
Personalización del Diccionario
Análisis de Co-ocurrencias
Asociaciones de Palabras
Análisis de Co-Palabras y Mapas Conceptuales
Comparaciones entre Parejas de Palabras-Clave
Análisis de Secuencias y Análisis de Redes
Concordancias
Co-occurrence Toolkit
Análisis Temáticos
Análisis Temático de Contextos Elementales
Modelización de Temas Emergentes
Clasificación Temática de Documentos
Clasificación Basada en Diccionarios
Textos y Discursos como Sistemas Dinámicos
Análisis Comparativos
Análisis de Especificidades
Análisis de Correspondencias
Análisis de Correspondencias Múltiples
Cluster Analysis
Descomposición de Valores Singulares
Herramientas Léxico
Text Screening / Desambiguaciónes
Vocabulario
Palabras Vacías
Multi-Palabras
Segmentación de Palabras
Otras Herramientas
Variable Manager
Búsqueda avanzada en el Corpus
Clasificación de Nuevos Documentos
Contextos Clave de Palabras Temáticas
Exportar Tablas Personalizadas
Editor
Importar-Exportar una lista de Identificadores
Glosario
Análisis de Correspondencias
Cadenas de Markov
Chi-cuadrado
Cluster Analysis
Codificación
Contextos Elementales
Corpus y Subconjuntos
Desambiguación
Documentos Primarios
Especificidad
Graph Maker
Homógrafos
IDnumber
Índices de Asociación
Isotopía
Lematización
Lexia y Lexicalización
MDS
Multiwords (Multi-Palabras)
N-gramas
Naïve Bayes
Normalización del Corpus
Núcleos Temáticos
Ocurrencias y Co-ocurrencias
Palabras y Lemas
Palabras Clave
Perfil
Polos de Factores
Stop Word List
Tablas de Datos
Umbral de Frecuencia
TF-IDF
Unitad de Análisis
Unidad de Contexto
Unidad Lexical
Valor Test
Variables y Modalidades
Bibliografía
www.tlab.it

Importar un único archivo ...


En el caso de un único texto (o corpus considerado como único texto), T-LAB no necesita nada más: es suficiente seleccionar la opción 'Importar un único archivo' (vease abajo).

Entonces se requieren cuatro pasos (ver la imagen siguiente) : (1) seleccionar cualquier archivo; (2) elegir el nombre del proyecto; (3) seleccionar el idioma de su texto; (4) hacer clic en "Importar" .

Sucesivamente aparece una ventana (véase abajo) en la cual el usuario puede elegir algunos tratamientos.

NOTA:
- Porque las diferentes opciones determinan el tipo y la cantidad de unidades de análisis (es decir las unidades de contexto y las unidades lexicales), diversas opciones determinan diversos resultados del análisis (véase abajo las opciones avanzadas). Por esta razón, todos los outputs de T-LAB (es decir gráficos y tablas) utilizados en el manual del usuario y en la ayuda en red son solo indicativos;
- Todas las etapas de pre-procesamiento se realizan al importar cualquier tipo de corpus.

 

1 - LEMATIZACIÓN AUTOMÁTICA O STEMMING

A continuación, se presenta el listado completo de los 30 idiomas para los cuales T-LAB prevé la posibilidad de implementar procesos de lematización automática y de stemming.

LEMATIZACIÓN: alemán, catalán, croata, eslovaco, español, francés, inglés, italiano, latín, polaco, portugués, rumano, ruso, serbo, sueco y ucraniano.
STEMMING: árabe, bengalí, búlgaro, checo, danés, finlandés, griego, hindi, húngaro, indonesio, marathi, noruego, persa y turco.

En cualquier caso, sin lematización automática y / o mediante diccionarios personalizados, el usuario puede analizar textos en todos los idiomas. Lo importante es que las palabras estén separadas por espacios y/o signos de puntuación.



El resultado del proceso del lematización se puede verificar por medio de la función Vocabulario y se puede modificar por medio de la función Personalización del Diccionario.

2 - SEGMENTACIÓN DE TEXTOS (CONTEXTOS ELEMENTALES)

Según la elección del usuario, los contextos elementales para el cómputo de co-ocurrencias pueden ser: frases, fragmentos de longitud comparable, párrafos o textos breves (por ejemplo, respuestas a las preguntas abiertas).

El fichero corpus_segments.dat contiene el resultado de la segmentación del corpus.

3 - CONTROL DE MULTI-PALABRAS

La opción "Básico" activa el uso automático de la lista multi-palabras de T-LAB.

Diferentemente la opción "Avanzado", disponible solamente con la lematización automática, permite las operaciones siguientes:
- verificar y modificar la lista de multi-palabras no incluidas en base de datos de T-LAB;
- importar y utilizar listas personalizadas de multi-palabras (archivos Multiwords.txt).


4 - CONTROL DE PALABRAS VACÍAS

La opción "Básico" activa el uso automático de la lista palabras vacías de T-LAB.

Diferentemente la opción "Avanzado" permite las operaciones siguientes:
- verificar y modificar la lista de palabras vacías presentes en el corpus;
- importar y utilizar listas personalizadas de palabras vacías (archivos StopWords.txt).


5 - SELECCIÓN DE PALABRAS CLAVE

Las opciones disponibles permiten que elijamos el método de la selección (TF-IDF o Chi-cuadrado) y la cantidad máxima de unidades lexicales que se incluirán en una lista usada por T-LAB para analizar los textos con la configuración automática.

NOTA: Al término de la fase de importación, utilizando la configuración personalizada, el usuario puede revisar la selección de palabras clave y crear varias listas para ser aplicadas.