Categorización e integración de columnas de opinión y contenido de páginas web aplicando técnicas de  Procesamiento de Lenguaje Natural

Jorge-Alexander Acevedo-Castiblanco; Marco-Javier Suarez-Barón; Juan-Sebastián González-Sanabria

doi:10.25100/iyc.v25i5.13220

https://doi.org/10.25100/iyc.v25i5.13220

Publicado: 26-06-2023

Palabras clave:

Clasificación de texto, Columnas de opinión, Procesamiento de Lenguaje Natural, Web Scrapping

PDF HTML Móvil

Número: Vol. 25 Núm. 3 (2023): Ingeniería y Competitividad

Sección Artículos de investigación

Métricas de publicación

315 | 262

Autores/as

Jorge-Alexander Acevedo-Castiblanco Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

Marco-Javier Suarez-Barón Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

Juan-Sebastián González-Sanabria Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

Resumen

Se presenta la aplicación de técnicas de Procesamiento de Lenguaje Natural para el análisis de textos, describiendo el proceso realizado desde la extracción de datos hasta la identificación y detección de opiniones de manera automática. Los textos analizados fueron columnas de opinión que reflejan los criterios de las personas sobre temas de actualidad. Lo anterior con el fin de proporcionar una manera ágil de identificar los temas de interés en la comunidad para proporcionar a los interesados de forma resumida lo que se expresa sobre estos temas. Para tal fin, se implementó un algoritmo que permite extraer información de manera precisa y limpia desde páginas web y posteriormente otro algoritmo que se encarga de efectuar la categorización automática de la información extraída, generando un resumen preciso de los principales temas en cada escrito.

Biografía del autor/a

Jorge-Alexander Acevedo-Castiblanco, Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

https://orcid.org/0009-0000-8740-9025

Marco-Javier Suarez-Barón, Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

https://orcid.org/0000-0003-1656-4452

Juan-Sebastián González-Sanabria, Universidad Pedagógica y Tecnológica de Colombia, Sogamoso, Colombia

https://orcid.org/0000-0003-1656-4452

Cómo citar

1.

Categorización e integración de columnas de opinión y contenido de páginas web aplicando técnicas de Procesamiento de Lenguaje Natural. inycomp. 2023;25(3):e-22313220 . doi:10.25100/iyc.v25i5.13220

Referencias

Moreno A. [Internet] Procesamiento del lenguaje natural ¿qué es?, 2023. Disponible en: https://www.iic.uam.es/inteligencia/que-es-procesamiento-del-lenguaje-natural/

Kaur G, Sharma A. A deep learning-based model using hybrid feature extraction approach for consumer sentiment analysis. Journal of Big Data. 2023; 10(1):10-18. https://doi.org/10.1186/s40537-022-00680-6 DOI: https://doi.org/10.1186/s40537-022-00680-6

Haque R, Islam N, Tasneem M, Das AK. Multi-class sentiment classification on Bengali social media comments using machine learning. International Journal of Cognitive Computing in Engineering. 2023; 4: 21-35. https://doi.org/10.1016/j.ijcce.2023.01.001 DOI: https://doi.org/10.1016/j.ijcce.2023.01.001

Martínez N, Téllez J, Barrero J, Chaves L. Automatic method for the prediction of the commercial appraisal of a property in Bogota city. 7th Congreso Internacional de Innovación y Tendencias En Ingeniería. 2021. https://doi.org/10.1109/CONIITI53815.2021.9619685 DOI: https://doi.org/10.1109/CONIITI53815.2021.9619685

Báez P, Arancibia AP, Chaparro MI, Bucarey T, Núñez F, Dunstan J. Natural language processing for clinical text in Spanish: The case of waiting lists in Chile. Revista Médica Clínica Las Condes. 2022; 33(6): 576-582. https://doi.org/10.1016/j.rmclc.2022.10.002 DOI: https://doi.org/10.1016/j.rmclc.2022.10.002

Garrido-Muñoz I, Montejo-Ráez A, Martínez-Santiago F. Exploring gender bias in Spanish deep learning models. CEUR Workshop Proceedings. 2022; 3224: 44-47

Wang J, Li J, Zhang Y. Text3D: 3D Convolutional Neural Networks for Text Classification. Electronics (Switzerland). 2023; 12(14):e87. https://doi.org/10.3390/electronics12143087 DOI: https://doi.org/10.3390/electronics12143087

Gouthami S, Hegde NP. An improved sentiment classification model using BERT classification with ranger Adabelief Optimizer. Journal of Theoretical and Applied Information Technology. 2023; 101(12): 5102-5113.

Catelli R, Pelosi S, Comito C, Pizzuti C, Esposito M. Lexicon-based sentiment analysis to detect opinions and attitude towards COVID-19 vaccines on Twitter in Italy. Computers in Biology and Medicine, 2023; 158:e106876. https://doi.org/10.1016/j.compbiomed.2023.106876 DOI: https://doi.org/10.1016/j.compbiomed.2023.106876

Yang Z, Zhang L, Wang X, Mai Y. ESG Text Classification: An Application of the Prompt-Based Learning Approach. Journal of Financial Data Science. 2023; 5(1): 47-57. https://doi.org/10.3905/jfds.2022.1.115 DOI: https://doi.org/10.3905/jfds.2022.1.115

De Santis E, Rizzi A. Prototype Theory Meets Word Embedding: A Novel Approach for Text Categorization via Granular Computing. Cognitive Computation. 2023; 15(3): 976-997. https://doi.org/10.1007/s12559-023-10132-9 DOI: https://doi.org/10.1007/s12559-023-10132-9

Siddiqui T, Amer, A. A comprehensive review on text classification and text mining techniques using spam dataset detection. Mathematics and Computer Science. 2024; 2: 1-18. https://doi.org/10.1002/9781119896715.ch1 DOI: https://doi.org/10.1002/9781119896715.ch1

Das RK, Islam M, Khushbu SA. BTSD: A curated transformation of sentence dataset for text classification in Bangla language. Data in Brief. 2023; 50:e109445. https://doi.org/10.1016/j.dib.2023.109445 DOI: https://doi.org/10.1016/j.dib.2023.109445

Bi H, Li B, Qiu Y, Change M. EnvText: A Chinese text mining tool for environmental domain with advanced BERT model. Software Impacts. 2023; 17:e100559. https://doi.org/10.1016/j.simpa.2023.100559 DOI: https://doi.org/10.1016/j.simpa.2023.100559

Palai P, Agrawal K, Mishra DP, Salkuti SR. Text grouping: a comprehensive guide. IAES International Journal of Artificial Intelligence. 2023; 12(3): 1476-1483. https://doi.org/10.11591/ijai.v12.i3.pp1476-1483 DOI: https://doi.org/10.11591/ijai.v12.i3.pp1476-1483

Fonseca CA, de Souza Netto RS, Bodolay AN, Carvalho Guelpeli MV. AnoTex: Structured data filtering routine of the scientific article genre as contribution to PLN. Texto Livre. 2018; 11(3): 40-64. https://doi.org/10.17851/1983-3652.11.3.40-64 DOI: https://doi.org/10.17851/1983-3652.11.3.40-64

Estadísticas

Downloads

Download data is not yet available.

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Los autores que publican en esta revista están de acuerdo con los siguientes términos:

Los autores ceden los derechos patrimoniales a la revista y a la Universidad del Valle sobre los manuscritos aceptados, pero podrán hacer los reusos que consideren pertinentes por motivos profesionales, educativos, académicos o científicos, de acuerdo con los términos de la licencia que otorga la revista a todos sus artículos.

Los artículos serán publicados bajo la licencia Creative Commons 4.0 BY-NC-SA (de atribución, no comercial, sin obras derivadas).

Barra lateral del artículo