T-LAB Home
T-LAB 10.2 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Co-occurrence Toolkit
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Textes et Discours comme Systèmes Dynamiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Classification des Nouveaux Documents
Contextes Clé de Mots Thématiques
Exporter des Tableaux Personnalisées
Editeur
Importer-Exporter une liste des Identificateurs
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Corpus et Sous-ensembles


Le corpus est un ensemble des textes (un ou plus) rassemblés pour être analysés.

Chaque sous-ensemble du corpus est défini au moyen d'une modalité de quelque variable.

T-LAB permet d'explorer et d'analyser les relations entre les unités d'analyse de tout le corpus ou de ses sous-ensembles.

Quelques exemples de corpus:

- un texte ou un document qui traite un sujet quelconque;
- un ensemble d'articles de journaux qui traitent le même sujet;
- un ou plus entretiens effectués pour le même projet de recherche;
- un ensemble de réponses à une ou plusieurs questions ouvertes d'un questionnaire;
- une ou plusieurs transcriptions de focus-group.

Quelques exemples de sous-ensemble:

- un ou plusieurs chapitres d'un livre;
- un ou plusieurs articles de journal édités dans la même année;
- une ou plusieurs entrevues avec la même catégorie de personnes;
- un sous-ensemble de réponses à une question ouverte.

N.B.: D'autres sous-ensembles du corpus sont les "classes thématiques" des documents ou des contextes élémentaires obtenus en utilisant les outils correspondants de T-LAB.

Dans le cas d'un corpus composé de plus d'un texte, afin d'en faire un ensemble correctement analysable, il faut que toutes ses pièces aient deux caractéristiques qui les rendent comparables:

a) une certaine homogénéité de leurs thèmes et/ou du contexte dans laquel ils ont été produits, ceci dans le but d'obtenir des données comparables entre elles;

b) un rapport équilibré entre leurs dimensions, en termes d'occurrences ou en termes de K bytes, ceci dans le but de ne pas encourir dans des anomalies statistiques.

Dans la logique de T-LAB, le corpus est une base de données organisées en entrées (anglais : records) et en champs.
Avec plus de précision, les entrées se composent des entités enregistrées (textes, segments de texte, mots) et les champs se composent des étiquettes employées pour classifier les différentes entités (les auteurs des textes, les contextes de référence, etc.).

Voir La Préparation du Corpus