This website doesn't use cookies to identify you.(More info)
email
en es fr it

PRODOTTO / News (demo, cronologia)

 

T-LAB Plus 2018

Le 10 novità più rilevanti sono le seguenti:

1 - Lo strumento Analisi delle Sequenze e Network Analysis è stato completamente ridisegnato e ora l'utilizzatore può verificare le relazione tra le parole, cioè tra i nodi della rete costituita dal testo in analisi, a vari livelli:

a) nelle relazioni del tipo uno-ad-uno;
b) nelle cosiddette 'ego network';
c) all'interno dei cluster tematici (o 'comunità') a cui appartengono;
d) all'interno dell'intera rete.

RELAZIONI UNO-AD-UNO
EGO-NETWORK

COMUNITA'

INTERA RETE


E' anche possibile verificare come le parole sono state raggruppate in ciascuna partizione della cluster analisi (vedi tabella seguente).
N.B.: L'algoritmo di clusterizzazione usato in questa procedura T-LAB si basa sul cosiddetto 'Louvain method' (vedi Blondel V.D., Guillame J.-L , Lambiotte R., Lefebre E., 2008).

Inoltre è possibile verificare i segmenti di testo che hanno il più alto punteggio di associazione con i vari cluster della partizione finale.

Per ulteriori informazioni sulle funzionalità appena descritte, e per meglio comprendere come esse consentono di esplorare i vari livelli gerarchici della rete analizzata, clicca qui.

2 - Nel sub-menu dello strumento Confronti tra Coppie è ora disponibile un nuovo diagramma radiale che consente di verificare rapidamente somiglianze e differenze nelle associazioni di parole, sia esse all'interno del corpus che all'interno di sottoinsiemi definiti da una qualche variabile categoriale (vedi sotto).

3 - La maggior parte degli strumenti per l'analisi delle co-occorrenze e per le analisi tematiche ora possono essere utilizzati con liste di parole-chiave che includono fino a 5.000 item. Ciò significa che, quando viene applicata la lemmatizzazione automatica, questo limite corrisponde a circa 12.000 parole (o 'forme').

4 - Quando vengono importati file che includono messaggi Twitter è ora possibile usare le stringhe con hashtag (cioè precedute dal carattere '#') come parole-chiave per le successive analisi.

5 - Quando, nell'uso di strumenti per le analisi comparative, vengono visualizzate tabelle di contingenza con un massimo 10.000 righe, ora T-LAB prevede un'opzione del tipo heatmap (vedi immagine seguente).

6 - Nei grafici che mostrano i risultati dell'Analisi delle Corrispondenze o del Multidimensional Scaling è ora disponibile un'opzione che consente di visualizzare le parole con dimensioni dei caratteri proporzionali alle rispettive occorrenze (vedi immagine seguente).

7 - Quando viene effettuata una analisi tematica di un corpus che include variabili categoriali, è ora possibile analizzare ogni singola tabella che incrocia i temi con ciascuna delle variabili assunta come 'attiva' nel modello dell'analisi delle corrispondenze (vedi immagine seguente).

8 - Quando si usa un qualunque strumento per l'analisi tematica, è ora disponibile una nuova tabella output che consente rapidamente di verificare quali sono le parole tipiche di ogni cluster (vedi immagine seguente).

9 -E' ora disponibile un nuovo strumento - denominato Ricerca Avanzata nel Corpus- che consente di estrarre ed esportare tutti i frammenti di testo (cioè frasi o paragrafi) che corrispondono a query con parole singole o multiple, questo sia all'interno del corpus che dei suoi sottoinsiemi (vedi immagine seguente).


10 -Alcune fasi del pre-processing, inclusa la lemmatizzazione automatica, sono state ottimizzate.




T-LAB Plus 2017 è stato rilasciato il 20 Gennaio 2017.

I cambiamenti più rilevanti riguardano tre punti: (A) le fasi di pretrattamento - es. segmentazione del testo, lemmatizzazione automatica e stemming - per molte lingue; (B) le funzionalità di alcuni strumenti per l' analisi delle cooccorrenze; (C) le prestazioni dello strumento per la Modellizzazione dei Temi Emergenti.

A - Per quanto riguarda le fasi di pretrattamento, i cambiamenti implementati sono i seguenti:

A.1- La Segmentazione dei testi (vedi https://en.wikipedia.org/wiki/Text_segmentation) in Cinese e Giapponese, cioè il riconoscimento delle rispettive 'parole' e l'inserimento di spazi bianchi tra di esse (vedi sotto).

N.B.: Per la segmentazione del cinese, è usata la libreria 'Pan Gu Segment' (http://pangusegment.codeplex.com/).

A.2- La lemmatizzazione basata su dizionari per nove (9) ulteriori lingue;

A.3- Opzioni per lo Stemming in quindici (15) lingue;

(*) La principale differenza tra lemmatizzazione e stemming sta nel modo in cui i due processi normalizzano le forme flesse delle parole chiave. Più precisamente, nel caso della lemmatizzazione (vedi https://en.wikipedia.org/wiki/Lemmatisation ) la normalizzazione consiste nel raggruppare le forma flesse tramite l'uso del lemma corrispondente (es.: 'lavorava', 'lavorai', 'lavorò' -> 'lavorare'); mentre nel caso dello stemming ( vedi https://en.wikipedia.org/wiki/Stemming) le forme flesse sono trasformate in una radice troncata, comune alle parole del gruppo considerato (e.g.: es.: 'lavorava', 'lavorai', 'lavorò' -> 'lavor').

Di seguito la lista delle nuove lingue per le quali T-LAB Plus 2017 supporta la lemmatizzazione automatica o lo stemming.

LEMMATIZZAZIONE: catalano, croato, polacco, rumeno, russo, serbo, slovacco, svedese, ucraino.

STEMMING: arabo, bengali, bulgaro, ceco, danese, finlandese, greco, hindi, indonesiano, marathi, norvegese, olandese, persiano, turco, ungherese.

All'avvio del processo di importazione, le sei lingue (*) per le quali T-LAB supportava già la lemmatizzazione automatica possono essere selezionate usando il pulsante sulla sinistra nel form di setup (vedi sotto opzione 'A'); diversamente le altre lingue possono essere selezionate usando il pulsante sulla destra (vedi sotto opzione 'B').

(*) Inglese, Italiano, Francese, Spagnolo, Portoghese e Tedesco.

In ogni caso, senza lemmatizzazione automatica e/o usando dizionari personalizzati, possono essere analizzati testi in tutte le lingue le cui parole siano separate da spazi e/o da punteggiatura.

B - Le nuove funzionalità degli strumenti per l'analisi delle co-occorrenze sono le seguenti:

B.1 - Per lo strumento Co-Word Analysis sono disponibili più opzioni di analisi;

Quando si sceglie la 'selezione automatica delle parole chiave', nella mappa MDS prodotta i differenti 'gruppi' (o cluster) di parole chiave sono marcati con diversi colori (vedi sotto);

Inoltre, usando il tasto destro sul grafico, è resa disponibile un'ulteriore opzione che automaticamente disegna i link più rilevanti, cioè quelli con l'indice di associazione maggiore di 0.15.

Infine, quando è usata l'opzione 'Clusterizzazione gerarchica delle parole chiave', è possibile visualizzare dendrogrammi che includono i vari elementi del nucleo tematico selezionato (vedi sotto).

 

B.2 - Quando viene usato lo strumento Associazioni di Parole è disponibile una nuova opzione che analizza automaticamente la matrice complete delle co-occorrenze (max 3000 righe/colonne) e produce una mappa MDS (vedi immagine seguente) con le parole chiave più rilevanti. In questo modo, l'utilizzatore può agevolmente passare da analisi di relazioni del tipo 'uno-a-uno' ad analisi di relazioni del tipo 'tutti insieme' e viceversa, sia all'interno di tutto il corpus o di suoi sottoinsiemi.

C - Le prestazioni dello strumento Modelizzazione dei Temi Emergenti, che usa un algoritmo del tipo topic model, sono state migliorate e ora - con esso - è possibile analizzare una collezione di max 30.000 documenti, a condizione che il numero totale di occorrenze (tokens) non sia superiore a 3.000.000.


T-LAB Plus 2016 è stato rilasciato il 22 aprile 2016.

Tra i vari cambiamenti introdotti segnaliamo i seguenti:

1 - Undici diversi formati di file - documenti PDF inclusi - possono essere ora processati direttamente da T-LAB, sia come singoli file che come una collezione di documenti.

N.B.:
- I file PDF solo immagine devono prima essere processati con un software OCR;
- I file HTML possono essere importati solo tramite il modulo Corpus Builder.

2 - Ora il software consente l'uso di ogni strumento attraverso due tipi di profili: principiante ed esperto. Quando è selezionato il primo (cioè 'principiante'), l'utilizzatore può realizzare ogni tipo di analisi con le impostazioni di default e senza visualizzare le opzioni avanzate del software.

3 - Ogni volta che viene usato uno strumento per l'analisi delle co-occorrenze o per l'esplorazione di cluster, un nuovo strumento denominato Graph Maker consente di creare ed esportare nuovi tipi di grafici dinamici, alcuni dei quali sono realizzati con l'ausilio della libreria D3 .

4 - Ogni volta che viene utilizzato uno strumento per esplorare somiglianze e differenze tra sottoinsiemi del corpus o tra cluster tematici è ora disponibile un nuovo strumento che consente di visualizzare una preview dei risultati con grafici del tipo tree map.

5 - Il clustering non supervisionato di segmenti di testo e di documenti per l'analisi tematica può essere ora realizzato anche con un nuovo algoritmo che si aggiunge al bisecting Kmeans implementato in T-LAB più di dieci anni or sono.
Il nuovo algoritmo, per inizializzare la procedura k-means, fa uso del metodo PDDP (Principal Direction Divisive Partitioning) proposto da Daniel Boley (1998).

In questo modo l'utilizzatore di T-LAB con un profilo esperto è messo in condizione di confrontare differenti soluzioni dello stesso problema, cioè - ad esempio - confrontare la qualità dei cluster ottenuti tramite l'applicazione di due differenti algoritmi alla stessa tabella dati.

Clicca qui per consultare il manuale.

Clicca qui per verificare le caratteristiche delle precedenti versioni di T-LAB.