www.tlab.it
Préparer un Corpus (Corpus
Builder)
N.B.: Les images de cette section font référence à une version
précédente de T-LAB 9. En
T-LAB 10, cet outil comprend
deux boutons supplémentaires: a) un qui, pour des corpus de
dimensions non supérieures à 20 MB, active l' option Text Screening; b) l'autre qui permet de
procéder immédiatement à l'importation
des matériaux textuels sélectionnés (voir l'image ci-
dessous).
Cet instrument logiciel a été projeté pour faciliter la
préparation et la transformation de divers matériaux textuels dans
un fichier corpus prêt à être importé par T-LAB.
Plus spécifiquement, cet instrument permet d'exécuter rapidement
les opérations suivantes:
1. Importer automatiquement
divers types de fichiers;
2. Éditer et modifier les textes;
3. Gérer l'emploi de variables
catégorielles;
4. Sauver le résultat du travail dans
un fichier prêt à être importé par T-LAB;
5. Vérifier et modifier n'importe quel fichier corpus qui
corresponde au format requis par T-LAB.
Pendant que la façon d'importer les fichiers (voir
au-dessus ' 1'), se diffère selon leur format, toutes les autres
opérations suivent la même logique.
De suite une brève description des façons pour importer
les différents types de fichiers.
A - Importation de fichiers en
format tabulaire (CSV, .SAV, .JSON, .XML, .XLS, XLSX,
.MDB, .ACCDB).
Un seul fichier qui inclue
jusqu'à 30.000 records peut être importé en utilisant l'option
"Open Table" ou bien par l'option drag and drop (NB: quand aucun
des textes dépasse les 2.000 caractères, la limite des records à
importer est étendue à 99.999).
Ce fichier peut être constitué de différentes colonnes
contenant les données suivantes:
- Variables catégorielles (une pour
chaque colonne, jusqu'à un maximum de 50);
- Textes à analyser (une seule
colonne);
- IDnumbers, c'est-à-dire
identificateurs des unités de contexte ou des cas.
N.B. : Tandis que la présence de variables catégorielles
et celle des IDnumbers est facultative, la présence d'au moins une
colonne contenant les textes à analyser est obligatoire.
Quand un fichier .CSV est importé, on doit opportunément
sélectionner le délimiteur employé (voir ci- dessous).
Quand des fichiers file Excel ou f Access sont importés,
on peut sélectionner seulement un tableau (voir ci-dessous).
B - Importation textes et
documents
L'option "Gather
your Texts" (voir ci-dessous) permet d'importer jusqu'à 30.000
documents, aussi bien un à la fois que par sélection multiple, avec
trois méthodes
différentes.
La première méthode ('Add
your Documents') prévoit l'importation automatique de type de
fichier .TXT, .DOC, .DOCX, .PDF, .RTF.
La deuxième méthode ('Add
EmptyRecord') vous permet d'ajouter des enregistrements où vous
pouvez copier/coller un texte (voir ci-dessous).
La troisième méthode
('Import Text from URL') vous permet de télécharger directement des
fichiers HTML à partir d'internet, éditer le contenu pour
d'éventuelles modifications et - ensuite - les importer (voir
ci-dessous).
C - Importation d'un
corpus déjà codifié selon les spécifiques de
T-LAB.
Il est recommandé d'utiliser l'option 'Open Corpus' dans
les trois cas suivants:
1 - l'utilisateur a l'intention de modifier la structure
d'un fichier corpus déjà codifié (p. ex. , ajouter d'autres textes
par les méthodes expliquées dans la section précédente "B",
modifier les noms de variables et/ou de modalités, etc. );
2 - l'utilisateur a l'intention de vérifier/corriger les erreurs
contenues dans un codage du corpus effectué manuellement et sans
l'aide du module Corpus Builder;
3 - l'utilisateur a l'intention d'importer un fichier corpus avec
un codage "brut" (voir l'image ci-dessous), c'est-à-dire un fichier
corpus dont les pièces (documents ou fichiers) sont toutes
précédées par une ligne avec quatre astérisques suivis d'un espace
('**** ' ).
Dans les trois
cas mentionnés ci-dessus (1,2,3) il est suffisant de sélectionner
un fichier individuel à travers l'option "Open Corpus" ou bien de
le traîner avec la méthode drag and drop (voir
ci-dessous).
Opérations succesives à
l'importation des fichiers
Après avoir importé les fichiers dans Corpus Builder,
aussi bien dans le cas où on n'est pas intéressé à l'utilisation de
variables, que dans le cas où les opérations de codage ont été
effectuées, vous pouvez passer à l'option 'Check/Generate' et -
après - à l'exportation du corpus à être importé par
T-LAB.
Lorsque le corpus contient des codages, il convient de
rappeler que, dans les trois types d'importation mentionnés dans
les sections précédentes de ce document (A', 'B', 'C'), les données
sont visualisées en différentes colonnes, dont les en-têtes peuvent
être les suivantes:
- Variable,
(c'est-à-dire variables catégorielles), dont l'utilisation est
nécessaire lorsque vous avez l'intention d'analyser les
caractéristiques et les relations mutuelles de sous-ensembles du
corpus;
- IDnumber, (c'est-à-dire
identificateurs de cas/record), dont l'utilisation est
facultative;
- My Texts, (c'est-à-dire les
textes à analyser), dont l'utilisation est possible dans une
colonne seulement et elle est obligatoire;
- Exclude, à être utilisé pour
indiquer au Corpus Builder que les données contenues dans la
colonne correspondante ne doivent pas être utilisées.
Les indications suivantes sont valables dans tous les cas:
- chaque record peut être sélectionné ou désélectionné
(voir ci-dessous '1 ');
- les Idnumber peuvent être ajoutés automatiquement (voir
ci-dessous '2');
- les noms des variables peuvent être édités et modifiés (voir
ci-dessous '3');
- chaque valeur de variable peut être éditée et modifiée (voir
ci-dessous '4');
- chaque champ "My Text" peur être édité et modifié (voir
ci-dessous '5').
Il faut rappeler que:
- Le numéro des colonnes avec des variables catégorielles
ne doit pas dépasser les 50 et chacune d'elles doit avoir un
minimum de 2 à un maximum de 150 valeurs;
- Les valeurs des IDnumber, si utilisées, doivent être progressives
à partir de 1 (es., 1, 2, 3, etc.);
- Chaque étiquette - soit pour des variables, soit pour les
modalités - ne peut être plus longue de 25 caractères (min. 2) et
ne doit pas contenir espaces blancs;
- Toutes les fautes relevées par le logiciel sont visualisées dans
la fenêtre en bas à gauche (voir ci-dessous).
Utilisation de l'outil Variable
Manager
L'instrument "Variable Manager" permet d'éditer, de
modifier et de sauver n'importe quel schéma de codage, provenant
même d'un corpus différent (voir ci-dessous).
Chaque schéma inclut la liste des variables et leurs valeurs (voir
ci-dessous).
Pour ajouter des variables provenant d'un autre corpus ou
d'un schéma précédemment enregistré, vous devez sélectionner
l'option '1' (voir ci-dessus). Differement, pour ajouter
manuellement les variables et leurs valeurs, vous devez utiliser
dans l'ordre les options '2' et ' 3' (voir ci-dessus).
L'ajout de valeurs des variables aux enregistrements
individuels est à faire manuellement (voir ci-dessous) et en une
seule session de travail; ceci parce que le sauvage du schéma
n'inclut pas les codages attribués à chaque enregistrement. Par
conséquent, dans le cas où l'utilisateur a l'intention de coder
manuellement un corpus qui comprend un nombre considérable de
documents et/ou il nécessite plus d'une session de travail, il est
recommandé de procéder comme suit:
1 - importer la quantité de fichiers qu'on considère possible coder
en une seule session de travail;
2 - enregistrer le travail accompli comme un corpus (voir l'option
'Save' du menu Corpus Builder).
Puis, dans une session suivante, réimporter le corpus
enregistré précédemment (voir ci-dessus, point '2 ' ), ajouter
d'autres enregistrements/fichiers qu'on souhaite codifier et
continuer.
Lorsque l'utilisateur a terminé les opérations qu'il juge
appropriées, l'option "Check/Generate" permet de vérifier leur
exactitude et, si tout est ok, il est possible de exporter (A) ou
sauver (B) un corpus qui est prêt à être importé de
T-LAB.
Dans le premier cas (A - voir ci-dessous) Corpus Builder
crée un nouveau dossier dans le répertoire ".. \ Mes Documents \
T-LAB PLUS\" et démarre automatiquement la procédure
d'importation. N.B.: Dans
ce cas-ci, le nouveau dossier a le même nom du fichier
corpus.
Dans le second cas (B - voir ci-dessous), l'utilisateur
peut sauver son corpus dans le dossier qu'il souhaite et ensuite il
doit utiliser la fonction "Importer un Corpus" de
T-LAB.
N.B.: Dans ce cas-ci, il est recommandé de créer - chaque
fois - un nouveau dossier de travail avec, en son intérieur,
seulement le fichier corpus à importer.
|