T-LAB 10.2 - AIDE EN LIGNE - T-LAB Outils pour l'Analyse de Textes

Dans le cas de textes uniques (ou corpus considéré comme texte unique) on n'a pas besoin d' autre travail : il vous suffit de sélectionner l'option 'Importer un fichier unique..' (voir l'image ci-dessous):

Ensuite, quatre étapes sont nécessaires (voir l'image ci-dessous) : (1) sélectionner un fichier ; (2) choisir le nom du projet ; (3) sélectionner la langue de votre texte; (4) cliquer sur "Importer" .

Ensuite une fenêtre apparaît (voir ci-dessous) dans laquelle l'utilisateur peut faire ses choix.

N.B.:
- Puisque les options de prétraitement déterminent le type et la quantité d'unités d'analyse (c.-à-d. des unités de contexte et des unités lexicales), les différents choix de l'utilisateur déterminent différents résultats de l'analyse. Pour cette raison, tous les outputs de T-LAB (c.-à-d. graphiques et tableaux) montrés dans le manuel et dans l'aide en ligne sont simplement indicatifs;
- Toutes les étapes du prétraitement sont effectuées lors de l'importation de tout type de corpus.

1 - LEMMATISATION AUTOMATIQUE OU STEMMING

De suite la liste complète des trente langues pour lesquelles la lemmatisation automatique ou bien le processus de stemming sont supportés par T-LAB.

LEMMATISATION: allemand, anglais, catalan, croate, espagnol, français, italien, latin, polonais, portugais, roumain, russe, serbe, slovaque, suédois, ukrainien.

STEMMING: arabe, bengali, bulgare, danois, hollandais, finlandais, grec, hindi, hongrois, indonésien, marathi, norvégien, persan, tchèque, turc.

En tout les cas, sans lemmatisation automatique et / ou en utilisant des dictionnaires personnalisés, l'utilisateur peut analyser textes dans toutes les langues, à condition que les mots soient séparés par des espaces et/ou des signes de ponctuation.

Le résultat du processus de lemmatisation peut être vérifié avec la fonction Vocabulaire et peut être modifié avec la fonction Personnalisation du Dictionnaire.

2 - SEGMENTATION DES TEXTES (CONTEXTES ÉLÉMENTAIRES)

Selon le choix de l'utilisateur, les types de contextes élémentaires utilisés pour le calcul des co-occurrences peuvent être les suivants: énoncés, fragments de longueur comparable, paragraphes ou textes courts (ex. réponses aux questions ouvertes).

Le fichier corpus_segments.dat permet à l'utilisateur de vérifier le résultat de la segmentation du corpus.

3 - EXAMEN DES MULTIWORDS

L'option "Élémentaire" active l'utilisation automatique de la liste Multi-Words de T-LAB.

Différemment l'option "Avancé", habilitée seulement avec la lemmatisation automatique, permet à l'utilisateur de vérifier et de modifier la liste des Multi-Words non inclus dans le dictionnaire de T-LAB.
Il est aussi possible d'importer et d'employer d'autres fichiers Multiwords.txt.

4 - EXAMEN DES STOPWORDS

L'option "Élémentaire" active l'utilisation automatique de la liste Stop-Words de T-LAB.

Différemment l'option "Avancé" permet à l'utilisateur de vérifier et modifier la liste des Stop-Words présentes dans le corpus à analyser.
Il est aussi possible d'importer et d'employer autres fichiers StopWords.txt.

5 - SÉLECTION DES MOTS-CLÉS

Les options disponibles nous permettent de choisir la méthode de choix (TF-IDF ou Chi-deux ) et la quantité maximum d'unités lexicales à inclure dans une liste employée par T-LAB pour analyser les textes avec les configurations automatiques.

N.B.: Lorsque la phase d'importation est terminée, en utilisant la configuration personnalisée, l'utilisateur peut vérifier la sélection des mots-clés et créer des listes différentes.