www.tlab.it
Classification (Cluster
Analysis)
Ensemble de techniques statistiques qui ont le but
de détecter des groupes d'objets avec
deux caractéristiques complémentaires:
A - l'homogénéité interne la plus élevée (à
l'intérieur de chaque classe);
B - l'hétérogénéité externe la plus élevée (parmi
les différentes classes).
Dans le langage de la statistique, ces
caractéristiques correspondent respectivement à la variance interne
(within cluster variance) et à celle externe (between cluster
variance).
En général, il y a deux genres de
classification:
- méthodes hiérarchiques, dont
les algorithmes reconstruisent la hiérarchie entière des objets
sous l'analyse (le soi-disant "arbre"), soit dans un ordre
ascendant (CAH) soit dans un ordre descendant (CDH);
- méthodes de division, où
l'utilisateur définit précédemment les nombres de classe dans
lesquels l'ensemble des objets doit être partitionné.
Dans T-LAB des algorithmes des deux types sont
utilisés.
En particulier:
Certaines publications citées dans la Bibliographie permettent d'approfondir aussi bien
les aspects généraux des diverses méthodes (Bolasco S., 1999;
Lebart L., A. Morineau, M. Piron, 1995), que les aspects
spécifiques concernant Hdbscan (Campello R. J. G. B., Moulavi D.,
Zimek A. & Sander J. , 2015) et la méthode bisecting K-means
(Steinbach, M., G. Karypis, V. Kumar, 2000; Savaresi S.M., D.L.
Boley, 2001).
|