T-LAB 10.2 - AIDE EN LIGNE - T-LAB Outils pour l'Analyse de Textes

Le processus d'analyse peut être effectué au moyen d'une méthode de clustering "non supervisée" (dans le cas particulier, un algorithme de bisecting K-Means) ou à travers une classification supervisée (c'est-à-dire une approche top-down). Lorsqu'on choisit la deuxième (c'est-à-dire la classification supervisée), on vous demande d'importer un dictionnaire des catégories, soit qu'il soit créé par une analyse précédente de T-LAB que construit par l'utilisateur.

Son utilisation permet de construire des classes de documents et d'explorer leurs caractéristiques à l'aide d'opérations/options semblables à celles qui sont décrites dans la section de l'aide dédiée à l'Analyse Thématique des Contextes Elémentaires.

Sa spécificité consiste dans le fait que le tableau analysé est formé par un nombre de lignes égal à celui des documents du corpus, chacun desquels est représenté comme un vecteur de valeurs indiquant les occurrences des mots qu'il contient.

En outre, lorsque les documents analysés ne dépassent pas les 3000, on peut obtenir des mesures de similarité (index du cosinus) entre chacun d'eux et tous les autres (voir ci-dessous). N.B. : dans ce cas le seuil minimum de l' 'index de similarité est fixé à 0,05.

D'ailleurs les outputs suivants sont différents:

Les documents appartenants à chaque classe sont ordonnés par la valeur décroissante de leur importance et peuvent être explorés dans le format HTML.

Dans ce cas-ci la valeur d'importance (score) assignée à chaque document (i) de la classe (k) est obtenue en appliquant la formule suivante:

Où:
i - se réfère au document i;
k - se réfère à la classe k;
cos - est le symbole du cosinus;
di - est le vecteur normalisé du TFj, i IDFj, où j se réfère à un mot du document i ;
ck - est le vecteur normalisé du de TFj, k IDFj, où j se réfère à un mot de la classe k.

En employant les scores obtenus par la formule ci-dessus, qui sont transformés en pourcentages, T-LAB rend disponible le fichier "Document_Membership_Degree.xls " (voir ci-dessous) contenant les classes auxquelles les documents sont assignés, soit par le bisecting K-Means (appartenance exclusive de chaque document à un classe) soit par le TF-IDF(appartenance mélangée de chaque document aux différentes classes).

Lorsque le bouton Similarité de Documents est activé, en cliquant dessus on peut vérifier dans quelle mesure chaque document est similaire à chacun des autres. Dans ce cas, la mesure de similarité est le coefficient du cosinus et sa valeur varie en fonction de combien de mots ont été utilisés pour le classement thématique.

L'image suivante décrit les options disponibles pour ce genre de vérification.

Lorsqu'on quitte cette fonction, des messages rappellent qu'il est possible d'explorer les classes obtenues avec d'autres outils T-LAB.

Si on choisit l'option "Sauvegarder", la variable < DOC_CLUST > (classes de documents) demeure disponible pour toutes les analyses suivantes du même corpus effectuées avec d'autres outils T-LAB.