T-LAB Home
T-LAB PLUS 2019 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Contextes Clé de Mots Thématiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Tableaux de Contingences
Editeur
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Critères Formels


Dans le cas d'un corpus composé d'un texte unique, et quand l'utilisateur ne fait pas recours aux variables, il n'y a aucune autre opération à faire et on peut procéder directement à l'importation.



Au contraire, quand le corpus est constitué par plusieurs textes et/ou bien on utilise des variables, la préparation du corpus doit être réalisée par le module Corpus Builder qui, de façon automatique, respecte les critères suivants:

Chaque texte ou sous-ensemble (les "parties" définies par des variables et/ou IDnumber) doit être précédé par une ligne de codage.

Chaque ligne de codage a ce format:

- elle commence par quatre astérisques (****), suivis d'un espace blanc. T-LAB lit cette séquence ainsi: "ici commence un texte ou une unité de contexte défini par l'utilisateur";

- elle continue avec des chaînes composées par des astérisques simples et des étiquettes qui définissent les sujets (IDnumber), les variables et les modalités respectives;

- elle finit avec le retour à la ligne.

Voici quelques exemples.

La ligne suivante introduit un texte (ou un sous-ensemble du corpus) codifié avec trois variables - AGE, SEXE et MET (métier) - avec les respectives modalités (adul, fem, prof).

**** *AGE_adul *SEX_fem *MET_prof

La ligne suivante introduit un texte (ou un sous-ensemble du corpus) codifié avec les mêmes variables et l'etiquette IDnumber.

**** *IDnumber_0001 *AGE_adul *SEX_fem *MET_prof

La ligne suivante introduit un texte (ou un sous-ensemble du corpus) codifié avec deux variables: ANN (année) e MAG (magazine)

**** *ANN_98 *MAG_times

Dans chaque ligne de codage, les règles T-LAB à respecter sont les suivantes :
1) chaque étiquette (clef) - soit pour des variables, soit pour les modalités - ne peut être entrecoupée par des espaces blancs.
2) chaque étiquette - soit pour des variables, soit pour les modalités - ne peut être plus longue de de 15 caractères (min. 2).
3) chaque étiquette de variable doit être liée à la respective modalité avec le tiret bas ("_").
4) entre deux différentes variables, c.-à-d. avant l'astérisque suivant, un espace blanc doit être inséré.
5) c
haque variable - avec les respectives modalités - doit être assignée pour chaque sous-ensemble du corpus.
6) le variables utilisables sont maximum 50, chacune avec un maximum de 150 modalités.

7) le numéro maximum d'IDnumber est fixé à 99.999 pour les textes brefs (Max. 2.000 caractères chacun, ex. réponses à questions ouvertes) et à 30.000 pour les autres cas.