T-LAB Home
T-LAB 10.2 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Co-occurrence Toolkit
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Textes et Discours comme Systèmes Dynamiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Classification des Nouveaux Documents
Contextes Clé de Mots Thématiques
Exporter des Tableaux Personnalisées
Editeur
Importer-Exporter une liste des Identificateurs
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Spécificités


N.B.: Les images de cette section font référence à une version précédente de T-LAB. En T-LAB 10, l'aspect est légèrement différent. En particulier, à partir de la version 2021, une galerie d'images à accès rapide qui fonctionne comme un menu supplémentaire permet de basculer entre les différentes sorties en un seul clic De plus l'utilisateur est autorisé à évaluer facilement les similitudes (ex. -Distance textuelle) entre les sous-ensembles du corpus (de 2 à 150), et donc aussi pour détecter les documents quasi-dupliqués et quasi-dupliqués (voir les images ci-dessous).

Cet outil T-LAB permet de vérifier quelles unités lexicales (c'est-à-dire mots, lemmes ou catégories) sont typiques ou exclusives dans un texte ou un sous-ensemble du corpus défini par une variable catégorielle; en outre il permet aussi d'identifier les unités de contexte caractéristiques des différents sous-ensembles en examen (par exemple les phrases "typiques" qui mieux différencient les discours des divers leaders politiques).

Les unités lexicales
typiques, définies par la proportion des occurrences respectives (c'est-à-dire par leur sur / sous- utilisation), sont déterminées par le calcul Chi-Carré ou par la Valeur Test.

Les contextes élémentaires caractéristiques sont identifiés en calculant et en additionnant les valeurs TF-IDF normalisées assignées aux mots dont chaque phrase ou chaque paragraphe est constitué.

L'analyse de spécificités nous permet d'effectuer deux types de comparaisons:

1 - entre une partie (ex. le sous-ensemble "A") et le tout (ex. le corpus entier "B");

2 - entre des couples de sous-ensembles ("A" e "B").

 

Dans chacun des cas on peut aussi bien analyser les Spécificités relatives aux intersections que celles relatives aux différences.

Les modalités du calcul sont montrées dans l'entrée correspondante du glossaire.

Les unités lexicales considérées peuvent être toutes (configuration automatique) ou seulement celles choisies par l'utilisateur (configuration personnalisée).

En succession, les quatre types de comparaisons possibles sont les suivantes:

1.1 - partie/tout: unités lexicales " typiques"

Colonne par colonne les clés de lecture du tableau sont les suivantes:

- LEMME = unités lexicales "spécifiques" (sur-utilisées ou sous-utilisées);
- SUB = occurrences de chaque LEMME dans le sous-ensemble examiné;
- TOT = occurrences de chaque LEMME dans le corpus ou dans les deux sous-ensembles examinés (voir 2.1);
- CHI2 = valeur du CHI deux (ou VTEST = Valeur Test);
- (p) = probabilité associée à la valeur du chi-deux (def=1).

En cliquant sur les éléments des tableaux, il est possible de créer différents types des graphiques.

1.2 - partie/tout: unités lexicales "exclusives"

2.1 - sous-ensemble/sous-ensemble: unités lexicales "typiques"

2.2 - sous-ensemble/sous-ensemble: unités lexicales "exclusives"

Pour chaque sous-ensemble analysé il est aussi possible de vérifier les contextes élémentaires (c'est-à-dire phrases ou paragraphes) qui mieux le distinguent des autres. Dans ce cas, la spécificité résulte du calcul de valeurs TF-IDF normalisées; plus particulièrement, le "score" attribué à chaque contexte élémentaire (voir l'image ci-dessous) est le résultat de la somme des valeurs TF-IDF assignées aux mots qui le composent.

Tous les tableaux de contingence peuvent être facilement explorés et nous permettent de créer différents types des graphiques. De plus, en cliquant sur cellules spécifiques du tableau (voir ci-dessous), il est possible de créer un fichier HTML montrant tous les contextes élémentaires où le mot en ligne est présent dans le sous-ensemble correspondant.

Finalement, en cliquant sur l'option appropriée (voir ci-dessous), un fichier dictionnaire avec l'extension .dictio est créé, qui est prêt à être importé par les outils T-LAB pour l'analyse thématique. Ce dictionnaire comprend tous les mots typiques de la variable catégorielle sélectionnée.