T-LAB Home
T-LAB 10.2 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Co-occurrence Toolkit
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Textes et Discours comme Systèmes Dynamiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Classification des Nouveaux Documents
Contextes Clé de Mots Thématiques
Exporter des Tableaux Personnalisées
Editeur
Importer-Exporter une liste des Identificateurs
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Décomposition en Valeurs Singulières (SVD)


La Décomposition en Valeurs Singulières (SVD - voir Wikipedia https://en.wikipedia.org/wiki/Singular-value_decomposition) est une technique de réduction des dimensions des données qui, dans le Text Mining, peut être utilisée pour découvrir les dimensions latentes (ou composants) qui déterminent les similitudes sémantiques entre les mots (c.-à-d. unités lexicales) ou entre documents (c.-à-d. unités de contexte).

T-LAB nous permet d'effectuer une SVD de trois types de tableaux de données. Dans le premier cas (voir 'A' ci-dessous), la table de données est une matrice de cooccurrences avec - en ligne et en colonne - les mots-clés sélectionnés. Dans le second cas (voir 'B' ci-dessous), le tableau de données contextes élémentaires X mots-clés contiendra des valeurs de présence / absence (c.-à-d. '1' et '0'). Dans le troisième cas (voir 'C' ci-dessous), le tableau les données documents x mots-clés contiendra des valeurs d'occurrence.
N.B.: Veuillez noter que, lorsque vous analysez une matrice de cooccurrences dont les lignes et les colonnes sont des termes clés (voir "A" ci-dessous), T-LAB fournit des vecteurs denses de haute qualité (c'est-à-dire des word embeddings).

La procédure d'analyse comprend les étapes suivantes:
1 - construction du tableau de données à analyser (jusqu'à 300 000 lignes x 5 000 colonnes);
2 - normalisation TF-IDF et mise à l'échelle des vecteurs de lignes (norme euclidienne);
2 - extraction des 20 premières "dimensions latentes" à travers l'algorithme de Lanczos.
N.B.:
- Dans le cas des matrices de cooccurrence (voir 'A' ci-dessus), la normalisation des données est obtenue en utilisant la mesure du cosinus;
- Lorsque les options avancées de word embedding sont sélectionnées, T-LAB calcule les valeurs PPMI (Positive Pointwise Mutual Information) et permet d'utiliser les 50 premières dimensions du SVD.

Les résultats de l'analyse sont affichés dans des tableaux et des graphiques.

En détail :

Deux tableaux - dont les lignes peuvent être des unités lexicales ou des unités de contexte - ont autant de colonnes que les dimensions extraites.

Dans le cas du tableau LEMMES (c'est-à-dire unités lexicales), une autre colonne s'affiche, dans laquelle les scores d'importance sont rapportés (voir ci-dessous).

N.B.: Le score d'importance de chaque lemme est calculé en additionnant les valeurs absolues de ses 20 premières coordonnées (c.-à-d. les vecteurs propres), chacune étant multipliée par la valeur propre correspondante.

Tous les tableaux peuvent être triés par ordre croissant ou décroissant en cliquant sur un en-tête de colonne quelconque.
Pour exporter n'importe quelle tableau, utilisez simplement le clic droit de la souris lorsque les données sont affichées.
Veuillez noter que la première fois qu'un tableau est exporté, les valeurs propres sont également exportées. De cette façon, l'utilisateur peut évaluer le poids relatif de chaque dimension, c'est-à-dire le pourcentage de variance expliqué.

En cliquant sur le bouton Associations, une autre tableau s'affiche avec les mesures de similarité (c.-à-d. le cosinus) de chaque mot-clé. De plus, lorsque vous cliquez sur une ligne quelconque d'un tableau, un graphique s'affiche avec les données correspondantes.

Le graphiques principal montre les relations entre les mots-clés (c.-à-d. les lemmes) sur les dimensions sélectionnées (voir ci-dessous).

Par défaut, le tableau ci-dessus comprend les 100 lemmes les plus importants. Cependant, l'utilisateur peut personnaliser le nombre de lemmes et les caractéristiques du graphique.