Palabras y Lemas
Los software para el análisis de textos, en primer lugar,
identifican las llamadas formas
gráficas, es decir las cadenas de letras separadas por los
espacios en blanco. Después, de acuerdo con sus algoritmos
específicos o con las categorías usadas por los especialistas, el
software reconoce lemas, lexemas, palabras
clave, etc.
Las tablas T-LAB, para todas las unidades
lexicales presentes en la base de datos del corpus, reproducen dos
informaciones:
- la primera, denominada "palabra", contiene la
trascripción de las unidades lexicales (palabras individuales,
lexias o multi-palabras) como "cadenas"
reconocidas por el software;
- la segunda, denominada "lema", contiene las etiquetas con
las que están reagrupadas y clasificadas las unidades
lexicales.
Según los casos, un lema puede ser:
- el resultado del proceso de lematización
automática;
- una voz de un "diccionario personalizado";
- una categoría que indica un grupo di sinónimos;
- una categoría de análisis del contenido;
- etc.
|