T-LAB Home
T-LAB 10.2 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Co-occurrence Toolkit
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Textes et Discours comme Systèmes Dynamiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Classification des Nouveaux Documents
Contextes Clé de Mots Thématiques
Exporter des Tableaux Personnalisées
Editeur
Importer-Exporter une liste des Identificateurs
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Modélisation des Thèmes Émergents


Cet outil T-LAB vous permet de repérer, examiner et modeler les principaux thèmes qui émergent des textes, aussi pour ensuite les utiliser dans des analyses qualitatives (ex. faire des grilles pour l'analyse de contenu) et quantitatives ultérieures.

Les thèmes émergents, qui sont décrits à travers leur vocabulaire caractéristique, c'est-à-dire à travers des ensembles de mots-clés (lemmes ou catégories) co-occurrents dans les unités de texte analysées, peuvent être en fait utilisés pour classifier ces dernières (ex. des documents ou des contextes élémentaires) et obtenir de nouvelles variables qui peuvent être utilisées dans des analyses ultérieures.


Un boîte de dialogue T-LAB (voir ci-dessus) vous permet de définir deux paramètres d'analyse.

En particulier:
- le paramètre (A) permet de définir le nombre de thèmes à obtenir. (Il convient de noter que plus ce nombre sera élevé plus cohérentes seront les relations de co-occurrence dans chaque theme; en outre, si nécessaire, certains themes - par exemple, ceux qui sont redondants ou difficiles à interpreter - peuvent être éliminés plus tard);
- le paramètre (B) vous permet d'exclure de l'analyse tous les unités de contexte qui ne contient pas un nombre minimum de mots-clés inclus dans la liste utilisée.

Seulement lorsque vous choisissez de personnaliser tous les paramètres d'analyse (voir l'option "Oui" ci-dessus), la fenêtre suivante sera affichée et plus d'options seront disponibles. (Notez que dans l'image suivante, le nombre d'unités de contexte est déterminé par le paramètre "B" dejà mentionné).

La procédure automatique d'analyse consiste en les étapes suivantes:

a - construction d'une matrice documents pour mots-clés, où les documents sont toujours des contextes élémentaires correspondant aux unités de contexte ( c.-à-d. fragments, phrases, paragraphes) dans lesquelles le corpus a été subdivisé;
b - analyse des données avec un modèle probabiliste qui utilise la "Latent Dirichlet Allocation" et le "Gibbs Sampling" (pour plus d'informations consulter les articles correspondants sur Wikipedia: http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation; http://en.wikipedia.org/wiki/Gibbs_sampling;
c - description de chaque thème à travers les valeurs de probabilité associées à leur mots caractéristiques, que ce soit spécifiques ou partagés par deux ou plusieurs thèmes.

A la fin du processus d'analyse, l'utilisateur pourra aisément effectuer les opérations suivantes :

1 - explorer les caractéristiques de chaque thème
2 - explorer les relations entre les différents thèmes
3 - renommer ou éliminer des thèmes spécifiques
4- vérifier la cohérence sémantique des différents thèmes;
5 - tester le modèle et assigner les thèmes aux unités de contexte, que ce soient documents ou contextes élémentaires.
6 - appliquer le modèle et créer une nouvelle variable thématique;
7 - exporter un dictionnaire des catégories.


Dans le détail:

1 - Explorer les caractéristiques de chaque thème

La première sortie à être visualisée (et qui vous pouvez enregistrer) est un tableau avec un aperçu de tous les thèmes. Et, quand vous le souhaitez, le même tableau peut être affiché en utilisant le bouton "Aperçu" (voir ci-dessous).

D'autres types de sortie sont accessibles en sélectionnant l'une des options mises en surbrillance dans l'image suivante.

N.B.: Dans ce graphique "hight probability" indique une probabilité >=.75.

Lorsqu'un thème est sélectionné, en cliquant sur l'option "Tableau Thème", vous pouvez vérifier ses caractéristiques. Aussi - en cliquant sur un mot du tableau - une autre option devient disponible qui vous permet de "supprimer" l'élément sélectionné (voir l'image ci-dessous).


Les abréviations de ce tableau sont les suivantes:


IN THEME = occurrence (tokens) de chaque mot à l'intérieur du thème sélectionné
TOT = occurrence (tokens) de chaque mot à l'intérieur du corpus ou sous-ensemble analysé
IN (%) = poids en pourcentage de chaque mot à l'intérieur du thème sélectionné
(p)= valeur de probabilité associée à chaque relation mot/thème
TYPE = est marqué specific quand le mot (avec p=1) appartient seulement au thème sélectionné, et devient shared dans les autres cas (c'est-à-dire quand le mot est présent dans plus d'un thème).

Lorsqu'un sujet est sélectionné, en cliquant sur l'option "Carte MDS" vous pouvez facilement explorer les relations sémantiques entre les mots qui sont plus caractéristiques (voir image ci-dessous).

De plus, en utilisant l'outil 'Graph Maker', des options graphiques supplémentaires deviennent disponibles (voir les images suivantes).

 

Lorsqu'un sujet est sélectionné, en cliquant sur l'option "contextes significatifs", un fichier HTML est créé où les 20 principaux segments de texte (qui correspondent le mieux aux caractéristiques du sujet) sont affichés (voir l'image ci-dessous).

1


2 - Explorer les relations entre les différents thèmes

Avec l'outil Analyse de Correspondance, vous pouvez créer et explorer deux types de tableaux de contingence:


2.1) un tableau mots par thèmes (voir ci-dessous)

2.2) un tableau qui croise les thèmes avec les modalités de la variable sélectionnée

Il y a également deux autres options graphiques disponibles qui nous permettent de cartographier les relations entre les différents thèmes / topics:

2.3) une carte MDS

2.4) certains diagrammes de réseau obtenu par l'exportation / importation du tableau d'adjacence créé par T-LAB (voir ci-dessous)

N.B.: le graphique précédent a été créé au moyen du logiciel Gephi (https://gephi.org/ ), après avoir importé un fichier T-LAB.

3 - Renommer ou éliminer des thèmes spécifiques

Pour renommer ou éliminer des thèmes spécifiques il suffit de sélectionner les items correspondants (voir 'A' ci-dessous) et cliquer sur le bouton "renommer/éliminer" (voir 'B' ci-dessous).


Quand la boîte à options apparaît (voir ci-dessous), selon son propre objectif, l'utilisateur peut changer la désignation du thème (cela en choisissant parmi les mots disponibles ou en prenant un nouveau, voir 'C' ci-dessus) ou bien éliminer le thème sélectionné avec un clic sur le bouton correspondant (voir 'D' ci-dessous).


4 - Vérifier la cohérence sémantique des différents thèmes

Lorsqu' on clique sur le bouton 'Index de Qualité', T-LAB calcule les similarités entre les dix premiers mots (top 10) caractéristiques de chaque thème. Plus précisément:

- les 10 premiers mots sont ceux qui ont la plus grande valeur de probabilité;
- les mesures de similarité sont calculées en utilisant le coefficient du cosinus;
- comme dans le cas de l' outil Associations de Mots, le coefficient du cosinus est calculé en vérifiant les cooccurrences de chaque paire de mots à l' intérieur des segments de texte définis en tant que contextes élémentaires.


En résultat, T-LAB crée un fichier HTML où les 'k' thèmes sont énumérés avec leur index correspondant de 'cohérence sémantique'.

N.B.: étant donné que les mesures de similitude varient suivant le changement des mots sélectionnés, il est recommandé de répéter la procédure chaque fois que l'un des dix premiers mots d' un thème est supprimé par l'utilisateur.

5 - Tester le modèle

A la fin de l'analyse des données (voir ci-dessus les points "A" et "B"), chaque unité de contexte (ex. un document ou un contexte élémentaire) est constituée d'un mélange de thèmes (ou sujets). Par ailleurs le procès de classification utilisé pour tester/appliquer le modèle assigne chaque unité de contexte au thème qui le caractérise le plus. Il en résulte que, à ce point, chaque thème devient de fait un cluster d'unités de contexte.

Pour cette raison quand l'option "Tester le Modèle" est sélectionnée, T-LAB crée deux fichiers XLS (voir ci-dessus) qui permettent à l'utilisateur de vérifier l'appartenance de chaque unité de contexte à un thème spécifique.

N.B.: dans le tableau ci-dessus, chaque document a une valeur de probabilité associée à chaque theme.


6 - Appliquer le modèle


Après avoir appliqué et sauvegardé le modèle, tenant compte du fait que les thèmes sont archivés par T-LAB sous deux nouvelles variables qui se réfèrent à clusters de contextes élémentaires ( CONT_CLUST) et/ou à clusters de documents (DOC_CLUST), les relations entre ces mêmes thèmes et/ou entre leurs caractéristiques pourront être ultérieurement explorées avec divers instruments d'analyse (voir ci-dessus).

Par exemple, en utilisant l'outil Associations de Mots et en sélectionnant le sous-ensemble (c.-à-d. le thème) "Evolution", vous pouvez créer le graphique ci-dessous.

7 - Exporter un dictionnaire des catégories

Lorsque cette option est sélectionnée, T-LAB crée un fichier dictionnaire avec l'extension .dictio prêt à être importé par l'intermédiaire d'un des outils pour l'analyse thématique. Dans ce dictionnaire chaque catégorie est décrite à travers ses mots caractéristiques.