www.tlab.it
n-grama
En
T-LAB, un n-grama es una secuencia de dos (bi-grama) o más
palabras claves presentes dentro del mismo contexto elemental.
Su uso está vinculado exclusivamente al cálculo de las co-ocurrencias.
Cabe destacar que, dentro del mismo contexto elemental, la
contigüidad de las palabras consideradas no tiene en cuenta ni las
'palabras vacías' (es decir, stop-word) ni la
puntuación.
Consideremos, a modo de ejemplo, el siguiente contexto
elemental:
La Nación española es libre e
independiente, y no es ni puede ser
patrimonio de ninguna familia ni persona
En el supuesto de que los cinco ítems en rojo estén incluidos en
nuestro listado de palabras claves, las segmentación en
bi-gramas produciría los siguientes
contextos de co-ocurrencia:
Nación & español
español & libre
libre & independiente
independiente & patrimonio
etc. etc.
Por otro lado, en el caso de tri-gramas, el resultado sería el siguiente:
Nación & español & libre
español & libre & independiente
libre & independiente & patrimonio
independiente & patrimonio & familia
etc. etc.
Es importante remarcar que, en el caso de los contextos
elementales, las co-ocurrencias están basadas en la presencia de
las palabras en el mismo 'lugar' (eje. frase, párrafo, etc.). Por
otro lado, en el caso de n-gramas, las co-ocurrencias se
fundamentan en una relación de contigüidad.
En
T-LAB es posible
implementar el análisis de co-ocurrencias basadas en n-gramas a
través de la herramienta Asociaciones de
Palabras. Además, se puede implementar el análisis markoviano
de bi-gramas utilizando la herramienta Análisis de las Secuencias.
|