T-LAB Home
T-LAB 10.2 - AIDE EN LIGNE Prev Page Prev Page
T-LAB
Introduction
Ce que T-LAB fait et ce qu' il vous permet de faire
Conditions requises et performances
Préparation du Corpus
Préparation du Corpus
Critères Structuraux
Critères Formels
Fichier
Importer un unique fichier...
Préparer un Corpus (Corpus Builder)
Ouvrir un Project Existant
Configurations d'Analyse
Configurations Automatiques Personalisées
Personnalisation du Dictionnaire
Analyse des Co-occurrences
Associations de Mots
Analyse des Mots Associés et Cartes Conceptuelles
Comparaisons entre paires de Mots-Clés
Analyse des Séquences et Analyse des Réseaux
Concordances
Co-occurrence Toolkit
Analyse Thématiques
Analyse Thématique des Contextes Élémentaires
Modélisation des Thèmes Émergents
Classification Thématique des Documents
Classification Basée sur ded Dictionnaires
Textes et Discours comme Systèmes Dynamiques
Analyses Comparatives
Analyse des Spécificités
Analyse des Correspondances
Analyse des Correspondances Multiples
Classification (Cluster Analysis)
Décomposition en Valeurs Singulières
Outils Lexique
Text Screening / Désambiguïsations
Vocabulaire du Corpus
Liste de Mots vides
Listes de Locutions
Segmentation de Mots
Autres Outils
Variable Manager
Recherche Avancée dans le Corpus
Classification des Nouveaux Documents
Contextes Clé de Mots Thématiques
Exporter des Tableaux Personnalisées
Editeur
Importer-Exporter une liste des Identificateurs
Glossaire
Analyse des Correspondances
Chaînes de Markov
Chi-Deux
Classification (Cluster Analysis)
Codage
Contextes élémentaires
Corpus et Sous-ensembles
Désambiguïsation
Document Primaire
Graph Maker
Homographes
IDnumber
Index d'Association
Isotopie
Lemmatisation
Lexie et Lexicalization
MDS
Mots-Clés
Mots et Lemmes
Multiwords
N-grammes
Naïve Bayes
Normalisation
Noyaux Thématiques
Occurrences et Cooccurrences
Polarités Factorielles
Profil
Seuil de Fréquence
Spécificités
Stop Word List
Tableaux de Données
Unité d'Analyse
Unité de Contexte
Unité Lexicale
TF-IDF
Valeur-Test
Variables et Modalités
Bibliographie
www.tlab.it

Préparer un Corpus (Corpus Builder)


N.B.: Les images de cette section font référence à une version précédente de T-LAB 9. En T-LAB 10, cet outil comprend deux boutons supplémentaires: a) un qui, pour des corpus de dimensions non supérieures à 20 MB, active l' option Text Screening; b) l'autre qui permet de procéder immédiatement à l'importation des matériaux textuels sélectionnés (voir l'image ci- dessous).

Cet instrument logiciel a été projeté pour faciliter la préparation et la transformation de divers matériaux textuels dans un fichier corpus prêt à être importé par T-LAB. Plus spécifiquement, cet instrument permet d'exécuter rapidement les opérations suivantes:

1. Importer automatiquement divers types de fichiers;
2. Éditer et modifier les textes;
3. Gérer l'emploi de variables catégorielles;
4. Sauver le résultat du travail dans un fichier prêt à être importé par T-LAB
;
5. Vérifier et modifier n'importe quel fichier corpus qui corresponde au format requis par T-LAB.

Pendant que la façon d'importer les fichiers (voir au-dessus ' 1'), se diffère selon leur format, toutes les autres opérations suivent la même logique.

De suite une brève description des façons pour importer les différents types de fichiers.

A - Importation de fichiers en format tabulaire (CSV, .SAV, .JSON, .XML, .XLS, XLSX, .MDB, .ACCDB).

Un seul fichier qui inclue jusqu'à 30.000 records peut être importé en utilisant l'option "Open Table" ou bien par l'option drag and drop (NB: quand aucun des textes dépasse les 2.000 caractères, la limite des records à importer est étendue à 99.999).

Ce fichier peut être constitué de différentes colonnes contenant les données suivantes:
- Variables catégorielles (une pour chaque colonne, jusqu'à un maximum de 50);
- Textes à analyser (une seule colonne);
- IDnumbers, c'est-à-dire identificateurs des unités de contexte ou des cas.

N.B. : Tandis que la présence de variables catégorielles et celle des IDnumbers est facultative, la présence d'au moins une colonne contenant les textes à analyser est obligatoire.

Quand un fichier .CSV est importé, on doit opportunément sélectionner le délimiteur employé (voir ci- dessous).

Quand des fichiers file Excel ou f Access sont importés, on peut sélectionner seulement un tableau (voir ci-dessous).

B - Importation textes et documents


L'option "Gather your Texts" (voir ci-dessous) permet d'importer jusqu'à 30.000 documents, aussi bien un à la fois que par sélection multiple, avec trois méthodes différentes.

La première méthode ('Add your Documents') prévoit l'importation automatique de type de fichier .TXT, .DOC, .DOCX, .PDF, .RTF.

La deuxième méthode ('Add EmptyRecord') vous permet d'ajouter des enregistrements où vous pouvez copier/coller un texte (voir ci-dessous).

 

La troisième méthode ('Import Text from URL') vous permet de télécharger directement des fichiers HTML à partir d'internet, éditer le contenu pour d'éventuelles modifications et - ensuite - les importer (voir ci-dessous).

 

C - Importation d'un corpus déjà codifié selon les spécifiques de T-LAB.

Il est recommandé d'utiliser l'option 'Open Corpus' dans les trois cas suivants:

1 - l'utilisateur a l'intention de modifier la structure d'un fichier corpus déjà codifié (p. ex. , ajouter d'autres textes par les méthodes expliquées dans la section précédente "B", modifier les noms de variables et/ou de modalités, etc. );
2 - l'utilisateur a l'intention de vérifier/corriger les erreurs contenues dans un codage du corpus effectué manuellement et sans l'aide du module Corpus Builder;
3 - l'utilisateur a l'intention d'importer un fichier corpus avec un codage "brut" (voir l'image ci-dessous), c'est-à-dire un fichier corpus dont les pièces (documents ou fichiers) sont toutes précédées par une ligne avec quatre astérisques suivis d'un espace ('**** ' ).


Dans les trois cas mentionnés ci-dessus (1,2,3) il est suffisant de sélectionner un fichier individuel à travers l'option "Open Corpus" ou bien de le traîner avec la méthode drag and drop (voir ci-dessous).

Opérations succesives à l'importation des fichiers

Après avoir importé les fichiers dans Corpus Builder, aussi bien dans le cas où on n'est pas intéressé à l'utilisation de variables, que dans le cas où les opérations de codage ont été effectuées, vous pouvez passer à l'option 'Check/Generate' et - après - à l'exportation du corpus à être importé par T-LAB.

Lorsque le corpus contient des codages, il convient de rappeler que, dans les trois types d'importation mentionnés dans les sections précédentes de ce document (A', 'B', 'C'), les données sont visualisées en différentes colonnes, dont les en-têtes peuvent être les suivantes:

- Variable, (c'est-à-dire variables catégorielles), dont l'utilisation est nécessaire lorsque vous avez l'intention d'analyser les caractéristiques et les relations mutuelles de sous-ensembles du corpus;
- IDnumber, (c'est-à-dire identificateurs de cas/record), dont l'utilisation est facultative;
- My Texts, (c'est-à-dire les textes à analyser), dont l'utilisation est possible dans une colonne seulement et elle est obligatoire;
- Exclude, à être utilisé pour indiquer au Corpus Builder que les données contenues dans la colonne correspondante ne doivent pas être utilisées.

Les indications suivantes sont valables dans tous les cas:

- chaque record peut être sélectionné ou désélectionné (voir ci-dessous '1 ');
- les Idnumber peuvent être ajoutés automatiquement (voir ci-dessous '2');
- les noms des variables peuvent être édités et modifiés (voir ci-dessous '3');
- chaque valeur de variable peut être éditée et modifiée (voir ci-dessous '4');
- chaque champ "My Text" peur être édité et modifié (voir ci-dessous '5').

Il faut rappeler que:

- Le numéro des colonnes avec des variables catégorielles ne doit pas dépasser les 50 et chacune d'elles doit avoir un minimum de 2 à un maximum de 150 valeurs;
- Les valeurs des IDnumber, si utilisées, doivent être progressives à partir de 1 (es., 1, 2, 3, etc.);
- Chaque étiquette - soit pour des variables, soit pour les modalités - ne peut être plus longue de 25 caractères (min. 2) et ne doit pas contenir espaces blancs;
- Toutes les fautes relevées par le logiciel sont visualisées dans la fenêtre en bas à gauche (voir ci-dessous).

Utilisation de l'outil Variable Manager

L'instrument "Variable Manager" permet d'éditer, de modifier et de sauver n'importe quel schéma de codage, provenant même d'un corpus différent (voir ci-dessous).

Chaque schéma inclut la liste des variables et leurs valeurs (voir ci-dessous).

Pour ajouter des variables provenant d'un autre corpus ou d'un schéma précédemment enregistré, vous devez sélectionner l'option '1' (voir ci-dessus). Differement, pour ajouter manuellement les variables et leurs valeurs, vous devez utiliser dans l'ordre les options '2' et ' 3' (voir ci-dessus).

L'ajout de valeurs des variables aux enregistrements individuels est à faire manuellement (voir ci-dessous) et en une seule session de travail; ceci parce que le sauvage du schéma n'inclut pas les codages attribués à chaque enregistrement. Par conséquent, dans le cas où l'utilisateur a l'intention de coder manuellement un corpus qui comprend un nombre considérable de documents et/ou il nécessite plus d'une session de travail, il est recommandé de procéder comme suit:
1 - importer la quantité de fichiers qu'on considère possible coder en une seule session de travail;
2 - enregistrer le travail accompli comme un corpus (voir l'option 'Save' du menu Corpus Builder).

Puis, dans une session suivante, réimporter le corpus enregistré précédemment (voir ci-dessus, point '2 ' ), ajouter d'autres enregistrements/fichiers qu'on souhaite codifier et continuer.


Lorsque l'utilisateur a terminé les opérations qu'il juge appropriées, l'option "Check/Generate" permet de vérifier leur exactitude et, si tout est ok, il est possible de exporter (A) ou sauver (B) un corpus qui est prêt à être importé de T-LAB.

Dans le premier cas (A - voir ci-dessous) Corpus Builder crée un nouveau dossier dans le répertoire ".. \ Mes Documents \ T-LAB PLUS\" et démarre automatiquement la procédure d'importation.
N.B.: Dans ce cas-ci, le nouveau dossier a le même nom du fichier corpus.

Dans le second cas (B - voir ci-dessous), l'utilisateur peut sauver son corpus dans le dossier qu'il souhaite et ensuite il doit utiliser la fonction "Importer un Corpus" de T-LAB.

N.B.: Dans ce cas-ci, il est recommandé de créer - chaque fois - un nouveau dossier de travail avec, en son intérieur, seulement le fichier corpus à importer.