This website doesn't use cookies to identify you.(More info)
email
en es fr it

PRODOTTO / News (demo, cronologia)

 

T-LAB Plus 2017 è stato rilasciato il 20 Gennaio 2017.

I cambiamenti più rilevanti riguardano tre punti: (A) le fasi di pretrattamento - es. segmentazione del testo, lemmatizzazione automatica e stemming - per molte lingue; (B) le funzionalità di alcuni strumenti per l' analisi delle cooccorrenze; (C) le prestazioni dello strumento per la Modellizzazione dei Temi Emergenti.

A - Per quanto riguarda le fasi di pretrattamento, i cambiamenti implementati sono i seguenti:

A.1- La Segmentazione dei testi (vedi https://en.wikipedia.org/wiki/Text_segmentation) in Cinese e Giapponese, cioè il riconoscimento delle rispettive 'parole' e l'inserimento di spazi bianchi tra di esse (vedi sotto).

N.B.: Per la segmentazione del cinese, è usata la libreria 'Pan Gu Segment' (http://pangusegment.codeplex.com/).

A.2- La lemmatizzazione basata su dizionari per nove (9) ulteriori lingue;

A.3- Opzioni per lo Stemming in quindici (15) lingue;

(*) La principale differenza tra lemmatizzazione e stemming sta nel modo in cui i due processi normalizzano le forme flesse delle parole chiave. Più precisamente, nel caso della lemmatizzazione (vedi https://en.wikipedia.org/wiki/Lemmatisation ) la normalizzazione consiste nel raggruppare le forma flesse tramite l'uso del lemma corrispondente (es.: 'lavorava', 'lavorai', 'lavorò' -> 'lavorare'); mentre nel caso dello stemming ( vedi https://en.wikipedia.org/wiki/Stemming) le forme flesse sono trasformate in una radice troncata, comune alle parole del gruppo considerato (e.g.: es.: 'lavorava', 'lavorai', 'lavorò' -> 'lavor').

Di seguito la lista delle nuove lingue per le quali T-LAB Plus 2017 supporta la lemmatizzazione automatica o lo stemming.

LEMMATIZZAZIONE: catalano, croato, polacco, rumeno, russo, serbo, slovacco, svedese, ucraino.

STEMMING: arabo, bengali, bulgaro, ceco, danese, finlandese, greco, hindi, indonesiano, marathi, norvegese, olandese, persiano, turco, ungherese.

All'avvio del processo di importazione, le sei lingue (*) per le quali T-LAB supportava già la lemmatizzazione automatica possono essere selezionate usando il pulsante sulla sinistra nel form di setup (vedi sotto opzione 'A'); diversamente le altre lingue possono essere selezionate usando il pulsante sulla destra (vedi sotto opzione 'B').

(*) Inglese, Italiano, Francese, Spagnolo, Portoghese e Tedesco.

In ogni caso, senza lemmatizzazione automatica e/o usando dizionari personalizzati, possono essere analizzati testi in tutte le lingue le cui parole siano separate da spazi e/o da punteggiatura.

B - Le nuove funzionalità degli strumenti per l'analisi delle co-occorrenze sono le seguenti:

B.1 - Per lo strumento Co-Word Analysis sono disponibili più opzioni di analisi;

Quando si sceglie la 'selezione automatica delle parole chiave', nella mappa MDS prodotta i differenti 'gruppi' (o cluster) di parole chiave sono marcati con diversi colori (vedi sotto);

Inoltre, usando il tasto destro sul grafico, è resa disponibile un'ulteriore opzione che automaticamente disegna i link più rilevanti, cioè quelli con l'indice di associazione maggiore di 0.15.

Infine, quando è usata l'opzione 'Clusterizzazione gerarchica delle parole chiave', è possibile visualizzare dendrogrammi che includono i vari elementi del nucleo tematico selezionato (vedi sotto).

 

B.2 - Quando viene usato lo strumento Associazioni di Parole è disponibile una nuova opzione che analizza automaticamente la matrice complete delle co-occorrenze (max 3000 righe/colonne) e produce una mappa MDS (vedi immagine seguente) con le parole chiave più rilevanti. In questo modo, l'utilizzatore può agevolmente passare da analisi di relazioni del tipo 'uno-a-uno' ad analisi di relazioni del tipo 'tutti insieme' e viceversa, sia all'interno di tutto il corpus o di suoi sottoinsiemi.

C - Le prestazioni dello strumento Modelizzazione dei Temi Emergenti, che usa un algoritmo del tipo topic model, sono state migliorate e ora - con esso - è possibile analizzare una collezione di max 30.000 documenti, a condizione che il numero totale di occorrenze (tokens) non sia superiore a 3.000.000.

 

Clicca qui per consultare il manuale.