T-LAB 10.2 - AIDE EN LIGNE - T-LAB Outils pour l'Analyse de Textes

N.B.: Les images de cette section font référence à une version précédente de T-LAB. En T-LAB 10, l'aspect est légèrement différent. En outre: a) il y a un nouveau bouton (TREE MAP PREVIEW) qui permet à l'utilisateur de créer plusieurs graphiques dynamiques au format HTML; b) le bouton DENDROGRAMME a été remplacé par l'outil Graph Maker; c) un autre tableau qui montre en colonnes différentes les mots typiques de chaque cluster est disponible; d) on peut effectuer d'autres analyses des correspondances entre les clusters thématiques et chaque variable disponible; e) une galerie d'images à accès rapide qui fonctionne comme un menu supplémentaire permet de basculer entre les différentes sorties en un seul clic.
Certaines de ces nouvelles fonctionnalités sont mises en évidence dans l'image ci-dessous.

Cet outil T-LAB permet d'obtenir et d'explorer une représentation des contenus du corpus à travers un nombre restreint et significatif de classes thématiques (de 3 à 50), dont chacune:

a) est formée par un ensemble de contextes élémentaires (phrases, paragraphes, fragments de texte, réponses à des questions ouvertes) caractérisés par les mêmes patterns de mots-clés;

b) peut être décrite à travers les unités lexicales (mots, lemmes ou catégories) et les variables (si elles sont présentes) qui caractérisent les unités de contexte dont elle est composée.

A plusieurs égards, on peut affirmer que le résultat de l'analyse propose une carte des isotopies (iso = égal; topoi = lieux), dont chacune correspond a un thème "générique" ou "spécifique" (Rastier, 2002: 204) caractérisé par la co-occurrence de traits sémantiques.

Le processus d'analyse peut être effectué au moyen d'une méthode de clustering non supervisée (dans le cas particulier, un algorithme bisecting K-Means) ou bien à travers une classification supervisée (c'est-à-dire une approche top-down). Lorsqu'on choisit la deuxième (c'est-à-dire la classification supervisée), on vous demande d'importer un dictionnaire des catégories, qu'il soit aussi bien créé à travers une précédente analyse T-LAB que construit par l'utilisateur.

Une boîte de dialogue (voir ci-dessus) nous permet de fixer quelques paramètres de l'analyse.

En particulier:

- le paramètre (A) nous permet de fixer le nombre maximum de classes à inclure dans les outputs T-LAB.
- le paramètre (B) nous permet d'exclure de l'analyse les unités de contexte qui ne contiennent pas un nombre minimum de mots-clés inclus dans la liste utilisée.

N.B.:
- Lorsqu'on sélectionne l'option "classification supervisée", puisque le numéro de clusters à obtenir coïncide avec le numéro de catégories présentes dans le dictionnaire, le paramètre "A" n'est pas disponible

- Les deux paramètres ci-dessus produisent des changements significatifs des résultats seulement quand le nombre des unités de contexte est très grand et/ou quand il s'agit de textes courts.

Dans le cas de classification non supervisée (option de default), la procédure d'analyse est constituée par les étapes suivantes:

a - construction d'un tableau unités de contexte x unités lexicales (jusqu'à 300.000 lignes x 5.000 colonnes) avec valeurs du type présence/absence;
b - calcul du poids TF-IDF et usage de la norme euclidienne (longueur des vecteurs = 1);
c - classification des unités de contexte (mesure de similitude: coefficient du cosinus; méthode de classification: bisecting K-means; références: Steinbach, Karypis, & Kumar, 2000; Savaresi, Booley, 2001);
d - archivage des partitions obtenues et, pour chacune d'entre elles:
e - construction d'un tableau de contingence unités lexicales x classes (n x k);
f - test du Chi-Deux appliqué à tous les croisements unités lexicales x classes.
g - analyse des correspondances du tableau de contingence unités lexicales x classes (références: Benzécri, 1984; Greenacre, 1984; Lebart, Salem, 1994).

N.B. : A partir de T-LAB Plus 2016, la clusterisation des unités de contexte (voir l'étape "c" ci-dessus) peut être obtenue soit en utilisant l'algorithme bisecting K-means algorithm (1), soit en utilisant une version non centrée de l'algorithme PDDP (Principal Direction Divisive Partitioning) proposé par D. Booley (1998) pour sélectionner les centroïdes des de chaque bisection K-means.
La principale différence entre les deux algorithmes reste dans la méthode à travers la quelle les deux centroïdes de chaque bisection sont obtenus; en effet, dans le premier cas (1) ils sont le résultat d'une réitération, pendant que dans le second cas (2) ils sont obtenus par SVD (i.e. Singular Value Decomposition), c'est-à-dire par un algorithme 'one-shot' (voir Savaresi, S.M., & Boley, D.L.,2004).

Ainsi donc, cette procédure effectue un type d'analyse des co-occurrences (étape a-b-c) et ensuite un type d'analyse comparative (e-f-g). En particulier, l'analyse comparative utilise comme colonnes du tableau de contingence les modalités de la "nouvelle variable" obtenue par l'analyse des co-occurrences (modalités de la nouvelle variable = classes thématiques).

Dans le cas de classification supervisée, les phases de l'analyse comparative sont les mêmes (voir ci-dessus e-f-g), tandis que l'analyse des co-occurrences est réalisée comme suit:
a) normalisation des seed vectors (c'est-à-dire des profils des co-occurrences) correspondant aux catégories "k" du dictionnaire importé;
b) calcul des indices du cosinus et des distances euclidiennes entre chaque unité de contexte "i", et chaque vecteur "germe" "k";
c) attribution de chaque unité de contexte "i" à la classe ou à la catégorie "k" pour laquelle le germe correspondant est le plus proche (dans ce cas, la similitude maximale du cosinus et la distance euclidienne minimale doivent coïncider, autrement T-LAB considère l'unité de contexte "i" comme non classifiée).

N.B.: Lorsque l'utilisateur décide de répéter/appliquer les résultats d'une analyse précédente (c'est-à-dire Analyse Thématique des Contextes Élémentaires ou une Modélisation des Thèmes Émergents), T-LAB effectue uniquement une analyse comparative (étapes e-f-g).

À la fin de l'analyse, l'utilisateur peut effectuer aisément les opérations suivantes:

1 - explorer les caractéristiques des classes;
2 - explorer les relations entre classes;
3 - explorer les relations entre classes et variables;
4 - explorer les différentes partitions des classes;
5 - raffiner les résultats de la partition choisie et, au besoin, répéter quelques-unes des étapes ci-dessus (1,2,3);
6 - attribuer des étiquettes aux classes;
7 - vérifier quels sont les contextes élémentaires qui appartiennent à chaque classe;
8- vérifier le "poids" de chaque contexte élémentaire au sein de classe à la quelle il appartient;
9 - obtenir une classification thématique de documents (fournie seulement quand le corpus se compose au moins de 2 documents primaires qui ne sont pas des textes courts comme les réponses aux questions ouvertes);
10 - archiver la partition sélectionnée pour l'explorer avec d'autres outils T-LAB.
11 - exporter un dictionnaire des catégories;
12 - vérifier la qualité de la partition choisie et la cohérence sémantique des différents thèmes;
13 - en outre, lorsque le corpus est structuré comme un discours ou une conversation, c'est-à-dire lorsque les unités de contexte se succèdent selon un ordre temporel précis, il est possible d'explorer de façon dynamique les séquences de thèmes (voir ci-dessous partie finale de cette section).

Dans le détail:

1 - Explorer les caractéristiques des classes

En cliquant sur le bouton Caractéristiques, pour chaque classe apparaissent les unités lexicales et les variables qui la caractérisent; et, pour chacune d'entre elles (unités lexicales ou variables), sont indiquées les valeurs du chi deux et les sommes des contextes élémentaires où elles se trouvent, tant à l'intérieur de la classe sélectionnée (" IN_CLUST ") qu'à l'intérieur de l'ensemble analysé ("IN_TOT"). En outre, dans la colonne "CAT", on indique si la caractéristique a été sélectionnée par l'utilisateur dans la fonction Configuration Personnalisée ("A") ou bien si elle a été proposée par T-LAB comme description "supplémentaire" ("S").

Dans le cas du chi-deux la structure de la table analysée est la suivante:

Où:
nij se réfère aux occurrences du mot (a) dans la classe sélectionnée (A)
Nj se réfère à toutes les occurrences du mot (a) dans le corpus (ou le sous-ensemble) analysé ;
Ni se réfère à toutes les occurrences dans la classe sélectionnée (A);
N se réfère à toutes les occurrences du tableau de contingence mots x classes.

Un tableau HTML (voir ci-après) permet de vérifier dans les détails les caractéristiques des classes.
Il contient la liste des mots et des contextes élémentaires qui caractérisent la classe examinée: les premiers ordonnés par rapport au CHI2, les deuxièmes ordonnés par rapport à leur poids (score).

Des graphiques en secteurs (pie charts) et des histogrammes permettent de vérifier le pourcentage des unités de contextes appartenantes à chaque classe.

2 - Explorer les relations entre classes

Certains graphiques, obtenus ou moyen de l'Analyse des Correspondances, permettent d'explorer les relations entre les classes à l'intérieur d'espaces bidimensionnels.

Plus spécifiquement :
- pour explorer les différentes combinaisons des axes factoriels, il suffit de les sélectionner dans les boîtes appropriées ("Axe X", "Axe Y") ;
- pour chacune des combinaisons (X-Y), on peut afficher différents types d'éléments (classe, lemmes et variables).

Tous les graphiques peuvent être personnalisés à travers l'utilisation de la fenêtre de dialogue appropriée (à l'aide du clic droit de la souris). De plus, lorsqu'il y a plus que trois clusters thématiques, leurs relations peuvent être explorées à travers les graphiques 3D (voir ci dessous).

Pour chaque axe factoriel T-LAB fournit deux tableaux qui aident à l'interprétation.

Un clic sur le bouton Tableau des Résultats nous permet de visualiser et de sauvegarder le fichier qui contient tous les résultats de l'analyse: valeurs propres, coordonnées, contributions absolues et relatives, valeurs test.

Une option spécifique (voir ci-dessous) nous permet de visualiser / exporter le tableau de contingences et de créer des graphiques montrant la répartition de chaque mot au sein des clusters.
De plus, en cliquant sur cellules spécifiques du tableau, il est possible de créer un fichier HTML montrant tous les contextes élémentaires où le mot en ligne est présent dans le cluster correspondant (colonne).

N.B. : Ce tableau comprend soit les mots-clés actives ('A') soit les mots-clés supplémentaires ('S').

3 - Explorer les relations entre classes et variables

Des histogrammes vous permettent de vérifier les rapports entre les classes et les variables.

D'autres relations entre classes et variables peuvent être explorées à l'aide des options disponibles dans la section "Analyse factorielle " (voir ci-dessus).

4 - Explorer les différentes partitions des classes

Puisque l'algorithme utilisé produit une classification hiérarchique, l'utilisateur peut facilement explorer plusieurs solutions de l'analyse: partitions composées de 3 à 50 classes.

Pour chaque partition obtenue, un tableau approprié (voir ci-après) montre les valeurs suivantes:
- "Index" correspond au rapport entre variance inter-classes et variance totale;
- "Gap" indique la différence entre la valeur de l'Index et celle de la partition immédiatement précédente:
- Nombre de la classe "fils" (child) obtenue à l'aide de la bi-section du "parent" correspondant.

L'option Partitions (voir ci-après) vous permet d'explorer les caractéristiques des différentes solutions.

En outre, l'option dendrogramme (voir ci-dessous) permet deux possibilités:

A) vérifier l'arbre des différentes bi-sections de clusters:

B) vérifier l'arbre des mots caractéristiques à chaque cluster:

5 - Raffiner les résultats de la partition choisie

Ensuite ayant exploré différentes solutions, l'utilisateur peut raffiner les résultats de la partition choisie et, au besoin, répéter certaines des étapes illustrées ci-dessus (1,2,3).

À cet effet, deux méthodes sont disponibles (voir image suivante).

Quand on choisit la méthode "A" (c'est-à-dire Naïve Bayes Classifier), cette option T-LAB nous permet de supprimer de l'analyse toutes les unités de contexte dont l'appartenance à une classe ne respecte pas les critères suivants:
a) pour chaque unité de contexte, l'appartenance à une classe, soit déterminée par le bisecting K-Means (unsupervised clustering) soit par le classificateur Naïve Bayes (supervised clustering), doit être la même;
b) la valeur maximum de la probabilité a posteriori, correspondante à l'appartenance de la j-unité de contexte à la k-classe, doit être au moins 50% plus haute que ses valeurs restantes (c.-à-d. les valeurs de la probabilité a posteriori dans les autres classes).

Autrement, dans le cas de la méthode "B" (c'est-à-dire Reclassement selon les Mots Typiques) T-LAB considère les caractéristiques des classes, c'est-à-dire les mots avec une valeur significative de Chi-Deux, comme items d'un dictionnaire des catégories et effectue les trois étapes de la "classification supervisée" décrites au début de cette section. Donc, lorsque l'utilisateur est intéressé à réappliquer des dictionnaires et à en comparer les résultats relatifs, il est vivement conseillé l'utilisation de cette méthode.

Tous les résultats de ce calcul sont dans un tableau exporté par T-LAB (voir ci-dessous) où les valeurs de les probabilités a posteriori sont converties en format pourcentage.

6 - Attribuer des étiquettes aux classes

Une fonction particulière de T-LAB permet d'attribuer des étiquettes aux classes.
(N.B: Lors de la première utilisation, certaines étiquettes sont proposées automatiquement par le logiciel).

Les étiquettes attribuées aux différentes classes peuvent être affichées dans les différents graphiques disponibles (voir ci-après).

7 - Vérifier quels sont les contextes élémentaires qui appartiennent à chaque classe
8- Vérifier le poids de chaque contexte élémentaire au sein du cluster auquel il appartient
9- Obtenir une classification des documents

Le bouton Membres des Classes permet d'exporter trois types de tableaux (voir ci-après) sous format MS Excel:

a - " Cluster_Partitions.xls " avec toutes les correspondances unités de contexte x classe à l'intérieur des différentes partitions ;

b - "Themes_Contexts.xls" avec les correspondances unités de contexte x classe à l'intérieur de la partition sélectionnée;

En particulier, la valeur d'importance (score) assignée à chaque contexte élémentaire (j) appartenant à la classe (k) vient de la formule suivante :

Où:

Scorej = valeur d'importance attribuée au contexte élémentaire (j);
SXij = somme des valeurs du Chi-deux correspondantes aux mots clés (i) trouvés dans le contexte élémentaire (j) et qui sont typiques de la classe (k);
nj = nombre de mots clés, typiques de la classe (k), trouvés dans le contexte élémentaire (j);
N = nombre de mots clés typiques de la classe (k).

c - " Ec_Document_Classification.xls " (output fourni seulement quand le corpus se compose au moins de 2 documents primaires qui ne sont pas des textes courts comme les réponses aux questions ouvertes) énumérant les appartenances mélangées de chaque document (voir ci-dessous).

Dans ce cas-ci les valeurs viennent de la formule ci-dessus (voir le " b") en additionnant les scores des contextes élémentaires appartenant à chaque document et en appliquant un calcul des pourcentages.

10 - Archiver la partition sélectionnée pour l'explorer avec d'autres outils T-LAB

Lorsqu'on quitte la fonction Analyse thématique des Contextes Elémentaires, des messages rappellent qu'il est possible d'explorer les classes obtenues avec d'autres outils T-LAB.

Si on choisit l'option Sauvegarder, la variable < CONT_CLUST > (classes de contextes élémentaires) demeure disponible uniquement dans certains types d'analyse (par exemple, Séquences de Thèmes, Associations de Mots, Comparaison entre Paires, Analyse des Mots Associés) et jusqu' au moment où l'utilisateur modifie sa liste de mots clés.

11 - Exporter un dictionnaire des catégories

Lorsque cette option est sélectionnée, T-LAB crée deux fichiers:

- un fichier dictionnaire avec l'extension '.dictio' prêt à être importé par l'intermédiaire d'un des outils pour l'analyse thématique. Dans ce dictionnaire chaque cluster correspond à une catégorie décrite au moyen de ses mots caractéristiques, c'est-à-dire par tous les mots avec une valeur significative du chi-deux à son interne;

- un fichier MyList.diz prêt à être importé par la fonction Configuration Personnalisée. Etant donné que ce fichier contient la liste alphabétique de tous les mots avec une valeur significative du chi-carré, c'est-à-dire tous les mots qui déterminent la différence entre les clusters thématiques, son utilisation peut permettre de répéter certaines analyses avec une modalité plus sélective et discriminante.

12 - Vérifier la qualité de la partition choisie et la cohérence sémantique des différents thèmes

Lorsque vous cliquez sur le bouton Index de Qualité, T-LAB crée un fichier HTML qui contient diverses mesures.
Les premières de celles-ci se réfèrent à la qualité de la partition en 'k' classes, c'est-à-dire, par exemple, au rapport entre la variance intérieure et extérieure.
Les deuxièmes se réfèrent à la 'cohérence sémantique' de chaque cluster et plus en détail aux similitudes entre les premiers dix mots caractéristiques de chaque thème.
En détail :
- les 10 premiers mots sont ceux qui ont la plus grande valeur du chi-carré ;
- les mesures de similarité sont calculées en utilisant le coefficient du cosinus ;
- comme dans le cas de l' outil Associations de mots, le coefficient du cosinus est calculé en vérifiant les cooccurrences de chaque paire de mots à l' intérieur des segments de texte définis en tant que contextes élémentaires.

13 - Explorer les Séquences de Thèmes

Contrairement à l'outil Séquences de Thèmes inclus dans un sous-menu de T-LAB pour l'analyse des cooccurrences, cette option a été spécialement conçue pour intégrer l'analyse thématique des contextes élémentaires. Plus précisément : son usage a sens seulement lorsque le corpus entier peut être considéré comme un discours et/ou lorsque ses différentes sections (par exemple : chapitres d'un livre, parties d'une entrevue, interventions de différents participants à une conversation ou à une discussion, etc.) se succèdent dans un ordre temporel précis.
Dans ce cas, les relations analysées sont celles entre les contextes élémentaires (jusqu'à un maximum de 100.000), le long de la chaîne linéaire du corpus, et chacun d'entre eux -soit comme " prédécesseur " ou comme " successeur " - est traité comme une unité d'analyse appartenant à un cluster thématique (ou comme non classé).
Tous les output fournis permettent à l'utilisateur d'explorer les relations séquentielles entre " thèmes", aussi bien de façon "statique" que de façon "dynamique". En particulier, au moyen de certains graphiques animés qui permettent d'apprécier la dynamique temporelle des séquences, l'utilisateur peut vérifier lorsque les gens sont engagés sur des thèmes particuliers (voir, par exemple, les points sur la diagonale des matrices dans les images suivantes) et lorsqu' ils passent d' un thème dominant à l'autre.

Étape par étape, de suite on fournit une brève description des différentes options disponibles.

(N.B.: tous les output de l'exemple ont été obtenus à travers une analyse thématique du livre The Politics of Climate Change d' Anthony Giddens publiée sur le site de T-LAB).
Lorsque le bouton Séquences de Thèmes est activé, en cliquant dessus, le "player" suivant devient visible et actif.

L' option "1" (voir ci-dessus) désigne le type de graphique choisi pour la visualisation des séquences, aussi bien à l' intérieur du corpus entier qu' à l' intérieur d' une partie de celui-ci (voir ci-dessus option "2").

L'option "matrice" fournit un graphique 3D qui résume les relations entre les prédécesseurs et les successeurs à l'aide de barres colorées placées aux croisements respectifs. Dans ce cas, lorsque des graphiques 3D animés sont visualisés, l' accroissement en hauteur des différentes barres indique l'augmentation des occurrences des séquences respectives (voir relations binaires entre "prédécesseurs" et "successeurs" dans le graphique suivant).

L'option "espace" fournit un graphique 2d dont les dimensions (c' est -à-dire les pourcentages) et les relations entre groupes thématiques sont représentées sur un plan organisé par deux axes factoriels sélectionnés par l'utilisateur. Dans ce cas, lorsque des graphiques animés sont affichés, les tailles des " bulles " - qui sont continuellement réadaptées à un total égal à 100 % - indiquent comment les pourcentages des éléments qui appartiennent à chaque cluster thématique varient avec le temps et, simultanément, le mouvement des flèches indique la direction dans laquelle les thèmes se suivent.

Dans les deux cas à peine décris, après l'arrêt de l' image (voir le bouton "pause"),on peut voir deux autres output :

A - des tableaux html qui résument les relations entre les prédécesseurs et les successeurs (voir ci-dessous);

B - des fichiers graphiques qui peuvent être importés à partir d'un logiciel pour l'analyse de réseau.

N.B.: Le graphique précédent, qui fait référence au troisième chapitre du livre de Giddens, a été créé au moyen du logiciel Gephi (voir https://gephi.org/).