T-LAB Home
T-LAB PLUS 2019 - HELP ON-LINE Prev Page Prev Page
T-LAB
Introduzione
T-LAB: cosa fa e cosa consente di fare
Requisiti e Prestazioni
Preparazione del Corpus
Preparazione del Corpus
Criteri Strutturali
Criteri Formali
File
Importare un singolo file...
Preparare un Corpus (Corpus Builder)
Aprire un Progetto Esistente
Impostazioni di Analisi
Impostazioni Automatiche e Personalizzate
Personalizzione del Dizionario
Analisi delle Co-occorrenze
Associazioni di Parole
Co-Word Analysis e Mappe Concettuali
Confronti tra Coppie
Analisi delle Sequenze e Network Analysis
Concordanze
Analisi Tematiche
Analisi Tematica dei Contesti Elementari
Modellizazione dei Temi Emergenti
Classificazione Tematica di Documenti
Classificazione Basata su Dizionari
Contesti Chiave di Parole Tematiche
Analisi Comparative
Analisi delle Specificità
Analisi delle Corrispondenze
Analisi delle Corrispondenze Multiple
Cluster Analysis
Singular Value Decomposition
Strumenti Lessico
Text Screening / Disambiguazioni
Vocabolario
Stop-Words
Locuzioni e Multi-Words
Segmentazione delle parole
Altri Strumenti
Gestione Variabili e Modalità
Ricerca Avanzata nel Corpus
Tabelle di Contingenza
Editor
Glossario
Analisi delle Corrispondenze
Catene Markoviane
CHI quadro
Cluster Analysis
Codifica
Contesto Elementare
Corpus e Sottoinsiemi
Disambiguazione
Documento Primario
Forma e Lemma
Graph Maker
IDnumber
Indici di Associazione
Isotopia
Lemmatizzazione
Lessia e Lessicalizzazione
MDS
Multiwords
N-grammi
Naïve Bayes
Normalizzazione del Corpus
Nuclei Tematici
Occorrenze e Co-occorrenze
Omografia
Parole Chiave
Polarità fattoriali
Profilo
Soglia di Frequenza
Specificità
Stop Word List
Tabelle Dati
TF-IDF
Unità di Analisi
Unità di Contesto
Unità Lessicale
Valore Test
Variabili e Modalità
Bibliografia
www.tlab.it

Importare un singolo file...


Nel caso di un unico testo (o di un corpus trattato come unico testo) T-LAB Plus non richiede ulteriori accorgimenti: basta selezionare l'opzione 'Importare un singolo file…' (vedi sotto).

Quindi si richiedono quattro passaggi (vedi immagine seguente) : (1) selezionare un qualsiasi file; (2) scegliere il nome del progetto; (3) selezionare la lingua del testo (*); (4) cliccar su 'Importa' .
(*) Quando il testo è in una lingua non elencata, è sufficiente selezionare l'opzione 'altri/text'.

Successivamente compare una finestra di riepilogo (vedi immagini seguenti) in cui possono essere effettuate alcune scelte.

N.B.:
- Poiché i trattamenti preliminari determinano il tipo e la quantità delle unità di analisi (cioè quali e quante unità di contesto e quali e quante unità lessicali), scelte diverse in questa fase comportano risultati diversi delle successive analisi (vedi sotto opzioni avanzate). Per questa ragione, tutti gli output T-LAB mostrati nel manuale e nell'help hanno solo valore indicativo;
- Tutte le fasi di pre-processing vengono eseguite durante l'importazione di qualsiasi tipo di corpus.

1 - LEMMATIZZAZIONE AUTOMATICA O STEMMING

Di seguito la lista complete delle trenta (30) lingue per le quali T-LAB Plus 2017 supporta la lemmatizzazione automatica o lo stemming.

LEMMATIZZAZIONE: catalano, croato, francese, inglese, italiano, polacco, portoghese, rumeno, russo, serbo, slovacco, spagnolo, svedese, tedesco, ucraino;
STEMMING: arabo, bengali, bulgaro, ceco, danese, finlandese, greco, hindi, indonesiano, marathi, norvegese, olandese, persiano, turco, ungherese.

All'avvio del processo di importazione, le sei lingue (*) per le quali T-LAB supportava già la lemmatizzazione automatica possono essere selezionate usando il pulsante sulla sinistra nel form di setup (vedi sotto opzione 'A'); diversamente le altre lingue possono essere selezionate usando il pulsante sulla destra (vedi sotto opzione 'B').
(*) Inglese, Italiano, Francese, Spagnolo, Portoghese e Tedesco.

In ogni caso, senza lemmatizzazione automatica e/o usando dizionari personalizzati, possono essere analizzati testi in tutte le lingue le cui parole siano separate da spazi e/o da punteggiatura.

Il risultato del processo di lemmatizzazione può essere verificato tramite la funzione Vocabolario e può essere modificato tramite la funzione Personalizzazione del Dizionario.
Se l'utilizzatore intende analizzare testi di lingue diverse, si consiglia di selezionare l'opzione "other".

2 - SEGMENTAZIONE DEI TESTI IN CONTESTI ELEMENTARI

A seconda della scelta dell'utilizzatore, i contesti elementari per il calcolo delle co-occorrenze possono essere di quattro tipi: frasi, frammenti di lunghezza comparabile, paragrafi e testi brevi (es. risposte a domande aperte).
Il risultato del processo di segmentazione può essere verificato tramite il file corpus_segments.dat.

3 - VERIFICA DELLE PAROLE MULTIPLE (MULTI-WORDS)

L'opzione "Base" abilita l'uso automatico della lista multi-words di T-LAB.

Diversamente, l'opzione "Avanzata", abilitata solo in caso di lemmatizzazione automatica, consente di verificare e modificare la lista delle multi-words presenti nel corpus e non incluse nel dizionario T-LAB (vedi immagine seguente). Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Multiwords.txt).


 

4 - VERIFICA DELLE PAROLE VUOTE (STOP-WORDS)

L'opzione "Base" abilita l'uso automatico della lista parole vuote di T-LAB.

Diversamente, l'opzione "Avanzata" consente di verificare e modificare la lista delle parole vuote presenti nel corpus.
Inoltre è possibile importare e usare altre liste predisposte dall'utilizzatore (file Stopwords.txt).

 

5 - SELEZIONE DELLE PAROLE CHIAVE

Le opzioni disponibili consentono di scegliere il metodo di selezione (TF-IDF o Chi-quadro) e il numero massimo di unità lessicali da includere nella lista usata da T-LAB per analizzare i testi con impostazioni automatiche.

N.B.: Al termine della fase di importazione, mediante le impostazioni personalizzate, l'utilizzatore può rivedere la selezione delle parole e costruire varie liste da applicare.