Etiquetado gramatical por entropía máxima y rasgos de similitud distribucional en un corpus subregional del español

Antonio Rico-Sulayes; Rafael Saldívar-Arreola; Álvaro Rábago-Tánori

doi:10.25100/iyc.v19i2.5293

https://doi.org/10.25100/iyc.v19i2.5293

Publicado: 01-07-2017

Palabras clave:

Corpus etiquetado, español mexicano, etiquetado gramatical estocástico

PDF xml (Inglés)

Número: Vol. 19 Núm. 2 (2017): Revista Ingeniería y Competitividad

Sección Artículos de investigación

Métricas de publicación

515 | 303 | 19

Autores/as

Antonio Rico-Sulayes Grupo de Investigación en Lingüística Aplicada, Universidad de las Américas Puebla. Puebla, México.

Rafael Saldívar-Arreola Cuerpo Académico Lengua, Tecnología e Innovación, Universidad Autónoma de Baja California. Mexicali, Méxi

Álvaro Rábago-Tánori Cuerpo Académico Lengua, Tecnología e Innovación, Universidad Autónoma de Baja California. Ensenada, México

Resumen

Con el objetivo primario de etiquetar automáticamente las categorías gramaticales en una colección de texto no estructurado, la cual fue diseñada para asistir en una serie de tareas lingüísticas, esta investigación ha utilizado dos etiquetadores automáticos de primera generación para el español. Estos etiquetadores han sido aplicados al Corpus del Habla de Baja California (CHBC) que cubre una subregión de México. Los dos etiquetadores, uno basado en el principio de Máxima Entropía y el otro que le suma a este modelo estadístico rasgos de similitud distribucional, son de reciente introducción y no se ha ofrecido un rango de precisión para los mismos. Por tanto, este artículo ha tenido como segundo objetivo el evaluar y proveer una cifra de precisión comprobada para los modelos de lenguaje que subyacen a los etiquetadores en cuestión. Con la finalidad de lograr estos dos objetivos, este artículo ha propuesto un etiquetario reducido, el cual también ha resultado de utilidad en la búsqueda de estos objetivos. Aplicados a una muestra de alrededor de 11,000 palabras y más de 12,500 etiquetas gramaticales para dos géneros (texto escrito y discurso oral transcrito), los dos etiquetadores, el de Máxima Entropía y el que suma a ésta los rasgos de similitud distribucional, han obtenido resultados de 97.2% y 97.4%, respectivamente. Al comparar estas cifras con el criterio estándar de 97.1% obtenido entre anotadores humanos, los resultados de ambos etiquetadores se muestran competitivos, incluso al aplicarlos a una colección de datos externa para la cual no han sido previamente entrenados o calibrados. Esto es particularmente importante porque en este tipo de condiciones experimentales se ha encontrado que el desempeño de los etiquetadores puede deteriorarse.

Cómo citar

1.

Etiquetado gramatical por entropía máxima y rasgos de similitud distribucional en un corpus subregional del español. inycomp. 2017;19(2):53-65. doi:10.25100/iyc.v19i2.5293

Estadísticas

Downloads

Download data is not yet available.

Los autores que publican en esta revista están de acuerdo con los siguientes términos:

Los autores ceden los derechos patrimoniales a la revista y a la Universidad del Valle sobre los manuscritos aceptados, pero podrán hacer los reusos que consideren pertinentes por motivos profesionales, educativos, académicos o científicos, de acuerdo con los términos de la licencia que otorga la revista a todos sus artículos.

Los artículos serán publicados bajo la licencia Creative Commons 4.0 BY-NC-SA (de atribución, no comercial, sin obras derivadas).

Barra lateral del artículo

Métricas de publicación

Contenido principal del artículo

Autores/as

Downloads