www.tlab.it
Préparation du
Corpus
Dans le cas de textes uniques (ou corpus considéré comme
texte unique) on n'a pas besoin d' autre travail : il vous suffit
de sélectionner l'option Importer un
fichier unique.. (voir la section correspondant du
manuel).
Autrement, si le corpus se compose de plusieurs documents
primaires codifiés (variables et
modalités), dans la phase de préparation on doit utiliser
l'outil Corpus Builder, qui transforme
automatiquement tout matériel textuel et divers types de fichiers
(c.-à-d. jusqu'à dix formats différents) dans un fichier corpus
prêt à être importé par T-LAB.
N.B.:
- dans tous les cas, nous
conseillons un examen orthographique du matériel à analysér.
D'ailleurs, si quelques acronymes importants sont ponctués (par
exemple "N.U.") il est recommandé de les transformer en chaînes
unitaires (par exemple "NU" ou "N_U"); ceci parce que, dans la
phase de normalisation, T-LAB interprète
les signes de ponctuation comme des séparateurs;
- au terme de la phase de préparation on recommande de
créer un nouveau dossier de travail avec à l'intérieur le fichier
corpus à importer.
|