www.tlab.it
Cluster Analysis
Insieme di tecniche statistiche il cui obiettivo è
costituito dall'individuare raggruppamenti di
oggetti che abbiano due caratteristiche
complementari:
- A) al loro interno, la massima somiglianza tra gli
elementi che li costituiscono (gli oggetti appartenenti a ciascun
cluster);
- B ) tra di loro, la massima differenza.
Nel linguaggio della statistica, le caratteristiche "A" e
"B" corrispondono rispettivamente alla varianza interna (within
cluster variance) e a quella esterna (between cluster
variance).
In generale, i metodi della Cluster Analysis
vengono distinti in due tipi:
- Hierarchical methods, i cui
algoritmi ricostruiscono l'intera gerarchia degli oggetti in
analisi (il cosiddetto "albero"), vuoi in senso ascendente, vuoi in
senso discendente;
- Partitioning methods, i cui
algoritmi prevedono che l'utilizzatore abbia preventivamente
definito il numero di cluster in cui l'insieme degli oggetti in
analisi va diviso.
In T-LAB
sono utilizzati algoritmi di entrambi i tipi.
In particolare:
Alcune delle pubblicazioni citate in Bibliografia consentono di approfondire sia
aspetti generali dei vari metodi (Bolasco S., 1999; Lebart L., A.
Morineau, M. Piron, 1995), sia aspetti specifici concernenti
Hdbscan (Campello R. J. G. B., Moulavi D., Zimek A. & Sander J.
, 2015) e il metodo bisecting K-means (Steinbach, M., G. Karypis,
V. Kumar, 2000; Savaresi S.M., D.L. Boley, 2001)
|