www.tlab.it
n-gramme
En
T-LAB un n-gramme est une
séquence de deux (bi-gramme) ou plus mots clés présents à
l'intérieur du même contexte
élémentaire.
Son usage est réservé au calcul des cooccurrences et, à l'intérieur du même contexte
élémentaire, la contiguïté des mots considérés ne tient pas compte
ni des "mots vides" (c'est-à-dire stop-words) ni de la
ponctuation.
Prenons, par exemple, le contexte élémentaire suivant:
La loi favorise l'égal accès des femmes
et des hommes aux mandats électoraux et fonctions électives, ainsi qu'aux responsabilités professionnelles et sociales.
En supposant que les treize items en rouge soient inclus dans notre
liste de mots clés, la subdivision en bi-grammes produit les
contextes suivants de cooccurrence:
loi & favoriser
favoriser & égal
égal & accès
etc. etc.
Différemment, dans les cas de trio-grammes le résultat serait le
suivant:
loi & favoriser & égal
favoriser & égal & accès
égal & accès & femme
etc. etc.
Il est important de souligner que, dans le cas des contextes
élémentaires, les cooccurrences sont basées sur la présence des
mots dans le même "endroit" (par ex. phrase, paragraphe etc.);
différemment, dans le cas des n-grammes, les cooccurrences sont
basées sur une relation de contiguïté.
En
T-LAB l'analyse des
cooccurrences basées sur des n-grammes peut être réalisée avec
l'outil Associations de Mots. En outre,
l'analyse markovienne des bi-grammes peut être effectuée à l'aide
de l'outil Analyse des Séquences.
|