T-LAB Home
T-LAB 10.2 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Co-occurrence Toolkit
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Testi e Discorsi come Sistemi Dinamici
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Classificazione di Nuovi Documenti
Contesti Chiave di Parole Tematiche
Esportare Tabelle Personalizzate
Editor
Importare-Esportare una lista degli Identificativi
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Importare un singolo file...


Nel caso di un unico testo (o di un corpus trattato come unico testo) T-LAB non richiede ulteriori accorgimenti: basta selezionare l'opzione 'Importare un singolo file…' (vedi sotto).

Quindi si richiedono quattro passaggi (vedi immagine seguente) : (1) selezionare un qualsiasi file; (2) scegliere il nome del progetto; (3) selezionare la lingua del testo; (4) cliccar su 'Importa' .

Successivamente compare una finestra di riepilogo (vedi immagini seguenti) in cui possono essere effettuate alcune scelte.

N.B.:
- Poiché i trattamenti preliminari determinano il tipo e la quantità delle unità di analisi (cioè quali e quante unità di contesto e quali e quante unità lessicali), scelte diverse in questa fase comportano risultati diversi delle successive analisi (vedi sotto opzioni avanzate). Per questa ragione, tutti gli output T-LAB mostrati nel manuale e nell'help hanno solo valore indicativo;
- Tutte le fasi di pre-processing vengono eseguite durante l'importazione di qualsiasi tipo di corpus.

1 - LEMMATIZZAZIONE AUTOMATICA O STEMMING

Di seguito la lista complete delle trenta (30) lingue per le quali T-LAB supporta la lemmatizzazione automatica o lo stemming.

LEMMATIZZAZIONE: catalano, croato, francese, inglese, italiano, latino, polacco, portoghese, rumeno, russo, serbo, slovacco, spagnolo, svedese, tedesco, ucraino;
STEMMING: arabo, bengali, bulgaro, ceco, danese, finlandese, greco, hindi, indonesiano, marathi, norvegese, olandese, persiano, turco, ungherese.

In ogni caso, senza lemmatizzazione automatica e/o usando dizionari personalizzati, possono essere analizzati testi in tutte le lingue le cui parole siano separate da spazi e/o da punteggiatura.



Il risultato del processo di lemmatizzazione può essere verificato tramite la funzione Vocabolario e può essere modificato tramite la funzione Personalizzazione del Dizionario.
Se l'utilizzatore intende analizzare testi di lingue diverse, si consiglia di selezionare l'opzione "other".

2 - SEGMENTAZIONE DEI TESTI IN CONTESTI ELEMENTARI

A seconda della scelta dell'utilizzatore, i contesti elementari per il calcolo delle co-occorrenze possono essere di quattro tipi: frasi, frammenti di lunghezza comparabile, paragrafi e testi brevi (es. risposte a domande aperte).
Il risultato del processo di segmentazione può essere verificato tramite il file corpus_segments.dat.

3 - VERIFICA DELLE PAROLE MULTIPLE (MULTI-WORDS)

L'opzione "Base" abilita l'uso automatico della lista multi-words di T-LAB.

Diversamente, l'opzione "Avanzata", abilitata solo in caso di lemmatizzazione automatica, consente di verificare e modificare la lista delle multi-words presenti nel corpus e non incluse nel dizionario T-LAB (vedi immagine seguente). Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Multiwords.txt).


 

4 - VERIFICA DELLE PAROLE VUOTE (STOP-WORDS)

L'opzione "Base" abilita l'uso automatico della lista parole vuote di T-LAB.

Diversamente, l'opzione "Avanzata" consente di verificare e modificare la lista delle parole vuote presenti nel corpus.
Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Stopwords.txt).

 

5 - SELEZIONE DELLE PAROLE CHIAVE

Le opzioni disponibili consentono di scegliere il metodo di selezione (TF-IDF o Chi-quadro) e il numero massimo di unità lessicali da includere nella lista usata da T-LAB per analizzare i testi con impostazioni automatiche.

N.B.: Al termine della fase di importazione, mediante le impostazioni personalizzate, l'utilizzatore può rivedere la selezione delle parole e costruire varie liste da applicare.