T-LAB 10.2 - AIDE EN LIGNE - T-LAB Tools for Text Analysis

N.B.: Les images de cette section font référence à une version précédente de T-LAB 9. En T-LAB 10, l'aspect est légèrement différent mais les fonctions sont les mêmes. En particulier, à partir de la version 2021, une nouvelle fonctionnalité permet de tester facilement n'importe quel modèle sur des données étiquetées (par exemple des données qui incluent des thèmes obtenus à partir d'une analyse qualitative précédente) et d'obtenir des résultats comme des matrices de confusion et des métriques de précision / rappel (voir image ci-dessous).

Cet outil T-LAB vous permet d'effectuer un classement automatique des unités lexicales (c' est-à-dire des mots et des lemmes, multiwords compris) ou des unités de contexte (c' est-à-dire des phrases, des paragraphes ou des documents courts) qui se trouvent dans un corpus en appliquant un ensemble de catégories prédéfinies ou bien choisies par l' utilisateur.

Selon le type de catégories utilisées, lesquelles peuvent être contenues dans un dictionnaire opportunément importé ou produites par T-LAB, ce classement peut être considéré un type d'analyse du contenu ou bien un type de sentiment analysis.

Puisque le processus d'analyse permet de créer de nouvelles variables et d' autres dictionnaires qui peuvent être exportés et importés dans d' autres projets d'analyse, cet outil peut aussi être utilisé soit pour explorer le même corpus à partir de points de vue différents, soit pour analyser deux ou plusieurs ensembles de textes en appliquant les mêmes modèles.

Parmi les utilisations possibles de cet outil, nous signalons les suivantes:

- Codage automatique de réponses à questions ouvertes;
- Analyse top-down des discours politique ;
- Sentiment Analysis de commentaires concernant des produits spécifiques;
- Vérification du processus psychothérapeutique;
- Validation de méthodes pour l' analyse qualitative.

De suite on trouve une brève description des quatre étapes principales du processus d'analyse, lesquelles - cependant - doivent être considérées indépendantes les unes des autres. En effet, le chercheur peut utiliser cet outil seulement pour personnaliser ses dictionnaires ou pour explorer son set de données.

A) - PHASE DE PRÉ-PROCESSING

Les points de départ et les types correspondants de l'input de la phase de pré-processing peuvent être trois:
points and the corresponding input types of the pre-processing phase can be three:

1 - un dictionnaire des catégories dans le format approprié est déjà disponible (voir les informations correspondantes dans la section 'E' de ce document). Dans ce cas, il suffit de cliquer l'option 'Importer un dictionnaire' (voir ci-dessous);

2 - un dictionnaire des catégories doit dériver d'exemples de texte ou des listes de mots fournies par l'utilisateur. Dans ce cas, il suffit de taper ou copier / coller les textes dans la case appropriée (un exemple pour chaque catégorie, un après l'autre, maximum 100.000 caractères chacun);

3 - un dictionnaire des catégories doit dériver d'une variable dérivant d' une d'analyse du contenu préalable. Dans ce cas, il suffit de cliquer sur l' option 'Choisissez une Variable' et effectuer les choix appropriés (voir ci-dessous).

Selon un des trois cas énumérés ci-dessus, avant d'activer l'option 'Exécuter Classement', T-LAB fonctionne comme suit:

1 - le dictionnaire importé est transformé en un tableau de contingence que l'utilisateur peut explorer de diverses façons (voir la section 'C' du présent document) ; en outre, en sélectionnant chaque catégorie, un ou plusieurs des éléments correspondants peuvent être éliminés (voir image ci-dessous).

2 - lorsque les textes de l' exemple sont insérés dans la case correspondante, après avoir cliqué sur le bouton 'Liste Automatique' (voir ci-dessous), T-LAB effectue un type spécifique de lemmatisation qui utilise seulement le vocabulaire du corpus sélectionné (voir la liste des mots dans la zone gauche de l'image suivante), puis, convertit chaque texte dans une liste dont les éléments peuvent être sélectionnés et désélectionnés. Ensuite, pour valider chaque liste de mots (c'est-à-dire chaque catégorie du dictionnaire), il faut cliquer sur l' option 'Appliquer votre liste' (voir ci-dessous). Toutes les opérations mentionnées doivent être répétées pour chaque catégorie du dictionnaire, ensuite l'utilisateur est autorisé à effectuer les opérations décrites dans la section 'C' de ce document.

3 - lorsque vous sélectionnez une variable résultant d'une précédente analyse du contenu, T-LAB visualise le tableau relatif de contingence des mots par catégories et l'utilisateur peut effectuer toutes les opérations d' exploration des données (voir la section 'C' du document présent).

B) - PROCESSUS DE CLASSIFICATION

Après avoir cliqué sur l' option 'Exécuter classement' (voir ci-dessus), selon le type de l' analyse de corpus , l' utilisateur peut effectuer les choix suivants:

À ce stade, si l'utilisateur décide de classer les mots, d'autres choix ne sont pas disponibles ; en effet, dans ce cas, les occurrences de chaque mot (c'est-à-dire les words tokens) sont tout simplement comptées comme les occurrences de la catégorie correspondante. Par exemple, si une catégorie de notre dictionnaire est 'religion' et celle-ci inclut des mots comme 'foi' et 'prière', lorsque l' on analyse un document qui contient les deux mots en question, T-LAB se limite à regrouper leurs occurrences. Par exemple, 2 occurrences de 'foi' et 3 occurrences de 'prière' deviennent 5 occurrences de 'religion'.

Sinon, si l'utilisateur décide de classer les unités de contexte (c' est-à-dire 'contextes élémentaires' comme des phrases et des paragraphes ou des 'documents '), T-LAB considère aussi bien les catégories dictionnaire que les unités de contexte à classer comme des profils de co-occurrences (c'est-à-dire term vectors) et calcule leurs mesures de similarité. A cet effet, les profils de co-occurrences peuvent être filtrés à travers une 'Liste de T-LAB' (c' est-à-dire à partir d'une liste qui comprend tous les mots-clés avec les valeurs d'occurrence supérieures ou égales au seuil minimum de 4) ou à travers une liste personnalisée (c' est-à-dire une liste qui comprend tous les mots-clés dérivant d' un choix de la part de l'utilisateur), listes qui , toutefois, peuvent même parfois résulter égales. En outre , dans ces cas , T-LAB permet d'exclure de l'analyse des unités de contexte qui ne contiennent pas un nombre minimum de mots-clés en leur intérieur (voir ci-dessus le paramètre 'co-occurrences dans les unités de contexte').

Lorsque, comme dans le cas que l' on vient de décrire, les 'objets' à classer sont les unités de contexte, T-LAB se déroule comme suit:

a) il normalise les vecteurs correspondant aux catégories 'k' du dictionnaire utilisé, c' est-à-dire les profilés de colonne relatifs ;
b) il normalise les vecteurs correspondant aux unités de contexte à analyser;
c) il calcule des mesures de similarité (cosinus) et de différence (distance euclidienne) entre chaque vecteur 'i' correspondant à une unité de contexte et chaque vecteur 'k'
correspondant à une catégorie du dictionnaire utilisé ;
d) il attribue chaque unité de contexte ('i') à la classe ou à la catégorie ('k') avec laquelle il a une relation de similitude plus élevée. (Note: dans tous les cas, pour chaque paire 'unités de contexte / 'catégorie' il doit y avoir une correspondance entre la valeur maximale du cosinus et la valeur minimale de la distance euclidienne, sinon T-LAB considère l' unité de contexte 'i' comme 'non classifiée'.

Autrement dit, dans le cas que l' on vient de décrire, T-LAB utilise une sorte de méthode K-means où les centroïdes 'K' sont définis a priori et ils ne sont pas mis à jour pendant le processus d' analyse.

Étant donné que dans ce cas, la classification est de genre top-down , la qualité des résultats obtenus dépend essentiellement de deux facteurs :
1 - la 'pertinence' du dictionnaire utilisé (voir la relation entre le lexique du corpus et le dictionnaire des catégories ) ;
2 - la capacité 'discriminante' de chacune des catégories (voir la relation entre les différentes catégories du dictionnaire).
En effet, lorsque ces deux facteurs sont optimaux, les deux paramètres de 'précision' et 'recall' (voir http://en.wikipedia.org/wiki/Precision_and_recall) ont des valeurs comprises entre 80% et 95%.

On rappelle qu' en ce moment T-LAB ne tient pas compte des formules de la négation, par conséquent, en effectuant une sentiment analysis, une phrase comme 'N' hais pas ton ennemi' peut être classée comme une tonalité 'négative' . Les utilisateurs experts peuvent gérer ce problème durant l'importation corpus (voir l'utilisation de listes pour les stop-words et multi-words). Par exemple, l'expression "N' hais pas" peut être transformée en "N_hais_pas" et, si on le retient approprié, elle peut être incluse dans la catégorie 'positif'.
.

C) - EXPLORATION DES DONNÉES

Dans l'utilisation de cet instrument toute activité d'exploration se réfère à des tableaux de contingence dans lesquels, selon les cas, peuvent être représentées soit les données en input (par exemple un dictionnaire de catégories) que les données en output (par exemple les résultats du processus de classification).

En particulier, en ce qui concerne les résultats de l'analyse, en fonction des unités textuelles classées - respectivement (a) 'mots', (b) 'contextes élémentaires' ou (c) 'documents' - les cellules des tableaux affichés contiennent les valeurs suivantes:
a) total des occurrences de chaque mot qui, dans le corpus analysé ou d' un de son sous-ensemble, a été classé comme appartenant à une catégorie prédéfinie (c' est-à-dire à la colonne ' j ' du tableau de contingence respectif). À noter que dans ce type de classification les mots appartenant simultanément à deux ou plusieurs catégories ont les mêmes valeurs répétées dans les colonnes correspondantes ;
b) total des contextes élémentaires affectés à une catégorie particulière (soit la colonne ' j ' dans laquelle est présent le mot dans la ligne (' i ') correspondante ;
c) total des occurrences de chaque mot (voir les lignes du tableau de contingence relatif) dans les documents attribués à chaque catégorie (voir les colonnes du tableau de contingence.

En cliquant sur les check-box correspondant aux différents items en ligne on peut obtenir des graphiques qui peuvent être personnalisés de différentes manières ; en outre, mais seulement en cas de classification de type 'b' (voir ci-dessus), en cliquant sur les valeurs contenues dans les cellules il est possible de visualiser les contextes d'occurrence de chaque mot.
Ci-dessous on trouve quelques outputs résultant d'un processus d'analyse dans lequel certaines catégories d'un dictionnaire 'classique' pour l'analyse du contenu (Harvard IV-4) ont été appliquées aux discours inauguraux des présidents des États-Unis.

Pour créer des graphiques avec plus d' ensembles de données correspondant à plusieurs lignes des tableaux de contingence, il suffit de choisir 'Sélection multiple' (option 'Oui'), de sélectionner jusqu'à 20 éléments et de cliquer sur 'Tracer le Graphique' (voir ci-dessous).

Les deux options ci-dessus sont également disponibles pour les tableaux avec les valeurs des variables.

Les pourcentages des catégories peuvent être vérifiés de diverses façons (voir ci-dessous)

Pour explorer la structure totale des données contenues dans les tableaux de contingence, vous pouvez utiliser soit l' option 'MDS' que l' option 'Analyse des Correspondances' (voir ci-dessous).

Seulement dans le cas que des unités de contexte ont été classées il est possible d' afficher et d' exporter d' autres outputs avec les données correspondantes ; en outre, en ce cas aussi, il est possible d' enregistrer les résultats de l' analyse dans une nouvelle variable et continuer l' exploration avec d' autres outils du menu T-LAB.

En détail, en cliquant sur le bouton 'HTML Report' vous pouvez voir certains résultats du processus de classification où un score de similarité (cosinus) est attribué à tous les 'contextes élémentaires' ou 'documents' appartenant aux différentes catégories (NB: les images qui suivent sont relatives à un corpus de documents contenant des brèves descriptions de sociétés).

Des données similaires peuvent être exportées dans des fichiers XLS (voir ci-dessous) qui contiennent toutes les informations concernant les contextes élémentaires ('Context_Classification.xls') ou bien des documents ('Document_Classification.xls') correctement classés;

(1) - Context_Classification.xls

(2) - Document_Classification.xls

D) - AUTRES PHASES DU PROCESSUS D' ANALYSE

Lorsque le processus de classification a produit ses outputs, deux autres options sont disponibles:

- 'Exporter Dictionnaire', qui crée un dictionnaire prêt à être importé et utilisé avec d' autres outils T-LAB pour les analyses thématiques ;

- 'Autres analyses T-LAB', qui, en fonction de la structure du corpus analysé, du type de classement effectué et du nombre de catégories appliquées, génère une nouvelle variable qui peut être utilisée par d' autres outils T-LAB (voir ci-dessous).

Ci-dessous vous trouvez un exemple obtenu par l'analyse d'un 'sous-ensemble' des contextes classés à l'aide de l' outil Associations de Mots (voir le menu principal de T-LAB).

E) - FORMAT INPUT/OUTPUT DES DICTIONNAIRES T-LAB

Ci-dessous sont rapportées toutes les informations sur le format des dictionnaires qui peuvent être importés par cet outil de T-LAB:

- tous les dictionnaires doivent être des fichiers texte (ASCII / ANSI) avec l' extension 'dictio' (ex. Mycategories.dictio) ;
- tous les dictionnaires créés par des outils T-LAB pour les analyses thématiques, y compris ceux créés par l'outil 'Classification Basée sur des Dictionnaires', sont prêts à être importés sans autres interventions de la part de l' utilisateur ;
- d' autres dictionnaires, aussi bien 'standard' que personnalisés , doivent être produits en suivant les indications rapportées ci-dessous :

1 - chaque dictionnaire se compose de 'n' lignes et ne peut pas dépasser la limite de 100.000 records ;

2 - chaque ligne du dictionnaire comprend deux ou trois 'chaînes' séparées par un point-virgule (ex. : économique;crédit) ;

3 - pour chaque ligne, la première chaîne doit être une 'catégorie', la seconde un 'mot' (ou lemme), la troisième - si présente - doit être un nombre réel positif (c' est-à-dire un numéro entier) de '1' à '999' qui représente le 'poids' de chaque mot dans la catégorie correspondante ;

4 - la longueur maximale d'une chaîne (mot, lemme ou catégorie) est de 50 caractères et ne doit pas contenir ni espaces vides ni apostrophes ;

5 - lorsque le dictionnaire contient des multi-words (ex. Gouvernement Fédéral), les espaces vides doivent être remplacés par le caractère '_ ' (ex. Gouvernement _Fédéral);

6 - dans chaque dictionnaire, le numéro des catégories utilisées peut varier entre un minimum de deux à un maximum de 50. Lorsque le nombre de catégories est supérieur à 50 il est recommandé d'utiliser un dictionnaire en un format différent et de l' importer en utilisant l'outil Personnalisation du Dictionnaire. Dans ce cas, on vous rappelle que chaque mot doit être en correspondance univoque avec une (seule) catégorie.

De suite vous trouvez deux extraits de fichiers .dictio, respectivement avec deux et trois chaînes par ligne:

a) cas avec deux chaînes (c' est-à-dire 'paires' de catégories et de mots)
...
négatif;catastrophique
négatif;nuisible
...
positif;fantastique
positif;satisfait
...

b) cas avec trois chaînes (c'est-à-dire des catégories, des mots et des numéros)
...
négatif;catastrophique;10
négatif;nuisible;8
...
positif;fantastique;9
positif;satisfait;7