T-LAB 10.2 - AIDE EN LIGNE - T-LAB Outils pour l'Analyse de Textes

N.B.: Les images de cette section font référence à une version précédente de T-LAB. En T-LAB 10, l'aspect est légèrement différent. En outre: a) il y a une nouvelle option qui permet à l'utilisateur de tracer une Carte MDS avec les mots les plus pertinents; b) un nouveau bouton (Graph Maker) permet à l'utilisateur de créer et d'exporter plusieurs graphiques dynamiques au format HTML; c) le bouton droit sur les tableaux avec les mots-clés rend disponibles des options supplémentaires; d) une galerie d'images à accès rapide qui fonctionne comme un menu supplémentaire permet de basculer entre les différentes sorties en un seul clic.
Certaines de ces nouvelles fonctionnalités sont mises en évidence dans l'image ci-dessous.

Cet outil T-LAB nous permet de vérifier comment les relations de co-occurrence et de similarité qui, à l'intérieur du corpus ou d'un de son sous-ensemble, déterminent le sens local de mots clé sélectionnés par l'utilisateur.

Cette vérification peut être faite au moyen d' options prédéfinies (A) ou à travers des options sélectionnées par l'utilisateur (B).

Dans le premier cas (A: options prédéfinies) les cooccurrences des mots sont calculées à l' intérieur des contextes élémentaires sélectionnés en phase d'importation du corpus (ex. phrases, fragments, paragraphes, etc.); différemment, dans le second cas (B: options sélectionnées par l'utilisateur) les cooccurrences peuvent aussi être calculées à l' intérieur de séquences de mots de longueur variable (c'est-à-dire n-grammes, voir section du glossaire correspondante) et il est aussi possible de décider le seuil minimum (c'est-à-dire la fréquence) des cooccurrences à considérer.

La fenêtre de travail (voir ci-dessous) devient disponible tout de suite après avoir effectué le calcul des cooccurrences entre tous les mots inclus dans la liste sélectionnée par l'utilisateur.

À gauche de cette fenêtre il y a un tableau avec la liste des mots et les valeurs numériques qui indiquent la quantité de contextes élémentaires ou de n-grammes dans lesquels chaque mot résulte présent.

Un simple clic sur les mots du tableau (option "1") ou sur les points des graphiques (option "2") permet de vérifier les associations relatives à chaque mot cible. Différemment, un click sur les labels inclus dans le tableau (option "3") permet de vérifier les items inclus dans chaque lemme.
De fois en fois, la sélection des mots associés est effectuée à travers le calcul d'un Index d'Association (voir section correspondante du glossaire) ou par un index de ressemblance du deuxième ordre (voir explication à la fin de cette section). Dans le premier cas les index disponibles sont six (Cosinus, Dice, Jaccard, Équivalence, Inclusion et Informartion Mutuelle) et leur calcul est plutôt rapide ; différemment, dans le cas des index du deuxième ordre - et surtout lorsque le corpus est de dimensions considérables - l'analyse des données peut demander plusieurs minutes. En outre, il faut tenir compte du fait que, dans le cas des index du deuxième ordre, les résultats sont aussi plus fiables que plus nombreux sont les mots inclus dans la liste.

Pour chaque interrogation, T-LAB produit graphiques et tableaux.
Soit les graphiques soit les tableaux peuvent être sauvés utilisant les boutons appropriés.

Dans le diagramme radial, le lemme choisi est placé au centre. Les autres sont distribués autour de lui, chacun à la distance proportionnelle à son degré d'association. Les rapports significatifs sont donc du type "un à un" entre le lemme central et chacun des autres.
Chaque clic sur un item produit un nouveau diagramme et, en employant le bouton droit de la souris, il est possible d'ouvrir une fenêtre de dialogue qui permet plusieurs personnalisations des graphiques.

Les tableaux contiennent des données qui permettent de vérifier les relations entre occurrences et cooccurrences des mots (Max. 50) qui résultent les plus associés à celui sélectionné.

Les clés de lecture sont les suivantes:

LEMME (A) = lemme sélectionné;
LEMME (B) = lemmes associés avec le LEMME (A);
COEFF = valeur de l'index d'association sélectionné;
TOT CE = total des contextes élémentaires (CE) ou des n-grammes analysés;
CE_A = total des CE dans lesquels le lemme sélectionné (A) est présent;
CE_B = total des CE dans lesquels chaque lemme associé (B) est présent;
CE_AB = total des CE dans lesquels les lemmes "A" e "B" sont associés (co-occurrences);
CHI2 = valeur du Chi Deux (signification des co-occurrences);
(p) = probabilité associée à la valeur du chi-deux (def=1).

Dans le cas du Chi Deux, pour chaque couple de lemmes ("A" e B") la structure du tableau analysé est la suivante.

Avec : nij = CE_AB; Nj = CE_A; Ni = CE_B; N = TOT CE.

Un clic sur chaque étiquette (par exemple "Israël") permet de sauvegarder un fichier avec tous les contextes élémentaires (c.-à-d. phrases ou paragraphes) où il est en couple avec le mot choisi (co-occurrences de "paix" et "Israël").

D'autres graphiques (Histogrammes) nous permettent d'apprécier les valeurs du coefficient utilisé et les pourcentages des co-occurrences.

En cliquant sur le bouton en bas à gauche, l'utilisateur peut exporter différents types de tableaux (voir l'image ci-dessous).

Une autre fenêtre T-LAB (voir image suivante, étape 1) permet de créer des fichiers graphiques qui peuvent être édités avec un logiciel pour le network analysis comme Gephi, Pajek, Ucinet, yEd et d'autres encore. Dans ce cas, les nœuds du réseau sont constitués par les mots associés au mot cible. Les options disponibles sont les suivantes : sélectionner les items (c'est-à-dire les " nœuds") à insérer dans les graphiques (voir ci-dessous, étapes 3 et 4), exporter le type de fichier graphique sélectionné (voir ci-dessous, étape 5).

N.B.: En T-LAB 10 la fenêtre suivante a été remplacée par l’outil Graph Maker.

Par exemple, des fichiers .gml exportés par T-LAB peuvent permettre de réaliser des graphiques comme les suivantes.

N.B.: Le premier graphique a été créé au moyen de Gephi (https://gephi.org/ ), le second au moyen de yEd (http://www.yworks.com/en/products_yed_download.html/ ), deux logiciels disponibles en téléchargement gratuit.

Les modalités de calcul des différents index d'association (ou proximité) sont illustrées dans la section correspondante du Manuel/Aide (voir glossaire). Comme on pourra vérifier, tous ces index sont obtenus à travers une normalisation des valeurs de cooccurrence qui concernent des couples de mots; donc - dans les calculs du premier ordre - deux mots jamais co-occurrents ont un index d'association égal à "0". Différemment, les index du deuxième ordre soulignent des phénomènes de "similarité" concernant l'usage (et donc le sens) des mots qui ne dépendent pas directement de leurs cooccurrences; en effet, dans ce cas, deux mots jamais co-occurrents peuvent avoir un index d'association même très élevé.

En utilisant certains concepts de la linguistique structurelle, nous pouvons affirmer que, pendant que les index du "premier ordre" relèvent des phénomènes qui concernent l' axe syntagmatique (combinaison et proximité "in praesentia", c'est-à-dire des mots "l'un à coté de l'autre" dans une phrase spécifique) les index du "deuxième ordre" relèvent des phénomènes qui concernent l'axe paradigmatique (association et similarité "in absentia", c'est-à-dire des relations de quasi synonymie entre deux ou plusieurs termes utilisés par le même auteur..

Pour comprendre la façon dont T-LAB calcule les index du "deuxième ordre", il est utile de rappeler que les index du "premier ordre" peuvent être utilisés pour construire des matrices de proximité comme la suivante (A).

Matrice 'A' - similarité du premier ordre

Dans cette matrice symétrique (A) la valeur 0.373 (en jaune) correspond à l'index le plus élevé du "premier ordre" et il indique l'association entre les mots "w_03" et "w_10". Plus précisément, il s'agit d'un index d'équivalence obtenu en divisant le carré de leurs cooccurrences par le produit de leurs occurrences (360^2/267*553).

À partir de la matrice ci-dessus (A), T-LAB construit une deuxième matrice (B) obtenue en calculant les cosinus résultants de la comparaison de toutes les colonnes qui contiennent les index du premier ordre (voir matrice 'A'). Comme on peut vérifier, dans le tableau 'B' suivant , la valeur de "similarité" plus élevée concerne la relation entre les mots "w_06" et "w_08". Ceci signifie que les vecteurs respectifs (voir les deux colonnes soulignées en vert dans la matrice 'A') résultent être entre eux très semblables (cosinus =0.905), même si l'association du "premier ordre" entre les deux mots en question résulte plutôt basse (0.063).

Matrice "B" : similarité du deuxième ordre.

Autrement dit, un index du "premier ordre" est obtenu en appliquant une formule qui inclut des valeurs de cooccurrence et occurrence, pendant qu'un index du "deuxième ordre" est obtenu en multipliant deux vecteurs normalisés.
Au-delà des modalités de calcul, il faut souligner le fait que dans les deux cas ("A" et "B") deux différents phénomènes sont relevés. Dans le premier cas ("A"), en effet, le focus est sur les cooccurrences; différemment, dans le second cas ("B") - et indépendamment de leurs cooccurrences - le focus est sur les ressemblances entre "profils" dont les données font référence à l'usage des mots de la part des auteurs des textes analysés.
Juste pour faire un exemple, dans l'analyse de Pinocchio du premier ordre le terme "fée" résulte généralement associé (voir cooccurrences) avec "gentille" et "cheveux bleus"; différemment, dans l'analyse du second ordre, le terme qui résulte le plus semblable à "fée" est "maman" , même si les cooccurrences entre ces deux termes ("fée" et "maman" ) sont - à l'intérieur du conte de fées de Collodi - presque insignifiantes (c'est-à-dire seulement 3).
Les tableaux visualisés par T-LAB permettent de vérifier soit les similarités du deuxième ordre (voir sous colonne SIM-II°) soit les index du premier ordre (EQU-I°, c'est-à-dire index d'équivalence).
En outre, en cliquant sur chaque item de ce tableau, il est possible de visualiser des fichiers HTML qui permettent de vérifier quelles caractéristiques ("features") déterminent la ressemblance entre chaque couple de mots. Par exemple, le tableau suivant montre que la similarité du deuxième ordre entre "accord" et "négociation" est en premier lieu déterminée par des caractéristiques partagées telles que "Oslo", "Taba", "Arafat", etc.