Contenido principal del artículo

Autores

La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información.  La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.

Juan Carlos Amezquita Tovar , Universidad Distrital Francisco Jose de Caldas

https://orcid.org/0000-0002-4690-8124

Hermes Javier Eslava Blanco, Universidad Distrital Francisco José de Caldas

https://orcid.org/0000-0002-2630-0023

1.
Amezquita Tovar JC, Eslava Blanco HJ. “Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud . inycomp [Internet]. 7 de junio de 2022 [citado 26 de abril de 2024];24(02):19. Disponible en: https://revistaingenieria.univalle.edu.co/index.php/ingenieria_y_competitividad/article/view/11361

IEEE Potentials Magazine, November/December 2020 [Internet]. [citado 24 de abril de 2021]. Disponible en: //read.nxtbook.com/ieee/potentials/november_december_2020/index.html

Carlo Batini, Monica Scannapieco. DATA AND INFORMATION QUALITY. I. Switzerland: Springer International Publishing; 2016. 500 p.

Sammut C, Webb GI, editores. Encyclopedia of Machine Learning and Data Mining [Internet]. Boston, MA: Springer US; 2017 [citado 23 de marzo de 2019]. available in: http://link.springer.com/10.1007/978-1-4899-7687-1

Who we are - Eurostat [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://ec.europa.eu/eurostat/about/who-we-are

Grow BG, January 24 2020. Data Quality Predictions for 2020 [Internet]. Transforming Data with Intelligence. [citado 21 de August de 2020]. Disponible en: https://tdwi.org/articles/2020/01/24/diq-all-data-quality-predictions-for-2020.aspx

Redman TC. Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review [Internet]. 22 de septiembre de 2016 [citado 21 de agosto de 2020]; Disponible en: https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year

Grow BG, July 6 2018. Reducing the Impact of Bad Data on Your Business [Internet]. Transforming Data with Intelligence. [citado 21 de August de 2020]. Disponible en: https://tdwi.org/articles/2018/07/06/diq-all-reducing-the-impact-of-bad-data.aspx

Fisher CW, Kingma BR. Criticality of data quality as exemplified in two disasters. Inf Manage. 1 de diciembre de 2001;39(2):109-16.

crodwflower. 2016 DATA SCIENCE REPORT. 2016 [Internet]. Disponible en: https://visit.figure-eight.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf?mkt_tok=eyJpIjoiTVRKaU9HWTBOVGxpWXpSbSIsInQiOiJ2VXJRdzlQK1RaRlNzeVdLamF2ZkUrR1wvUnJlNDY3Mk03bm42MExwWEZoNXVJOEFHWUVXdjJ0Q3FSc1RvTCtFK21mUmkyUFwvUUJYMzBCcm5YU0xldEd3MENOVTNKaW10QjBxTDBVVHhlTkNab3NqV1Q5TllSREhNelhxYVBMQ3ZEIn0%3D

ISO 9000:2015(en), Quality management systems — Fundamentals and vocabulary [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://www.iso.org/obp/ui/#iso:std:45481:en

Batini C, Scannapieco M. Data Quality Dimensions. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 21-51. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/978-3-319-24106-7_2

Batini C, Scannapieco M. Activities for Information Quality. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 155-75. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/978-3-319-24106-7_7

Müller H, Freytag J-C. Problems, Methods, and Challenges in Comprehensive Data Cleansing. :23.

Fernández SF, Sánchez JMC, Córdoba A, Largo AC. Estadística Descriptiva. ESIC Editorial; 2002. 576 p.

Google Colaboratory [Internet]. [citado 29 de junio de 2020]. Disponible en: https://colab.research.google.com/notebooks/welcome.ipynb?hl=es-419

hrasheed-msft. ¿Qué es Azure HDInsight? [Internet]. [citado 27 de abril de 2020]. Disponible en: https://docs.microsoft.com/es-es/azure/hdinsight/hdinsight-overview

J. Wang, C. Zhang, X. Wu, H. Qi and J. Wang. SVM-OD: A New SVM Algorithm for Outlier Detection - Google Académico. En 2003 [citado 24 de agosto de 2020]. Disponible en: https://scholar.google.com/scholar?hl=es&as_sdt=0%2C5&q=SVM-OD%3A+A+New+SVM+Algorithm+for+Outlier+Detection&btnG=

Factores que afectan el peso y la salud | NIDDK [Internet]. National Institute of Diabetes and Digestive and Kidney Diseases. [citado 16 de mayo de 2020]. Disponible en: https://www.niddk.nih.gov/health-information/informacion-de-la-salud/control-de-peso/informacion-sobre-sobrepeso-obesidad-adultos/factores-afectan

Lean Yu, Shouyang Wang, Lai KK. An integrated data preparation scheme for neural network data analysis. IEEE Trans Knowl Data Eng. febrero de 2006;18(2):217-30.

Sumithra V.S,Subu Surendran. A Review of Various Linear and Non Linear Dimensionality Reduction Techniques. Int J Comput Sci Inf Technol. 6.

Sidi F, Shariat Panahy PH, Affendey LS, Jabar MA, Ibrahim H, Mustapha A. Data quality: A survey of data quality dimensions. En: 2012 International Conference on Information Retrieval Knowledge Management. 2012. p. 300-4.

Grow BG, May 3 2019. Data Quality Best Practices for Today's Data-Driven Organization [Internet]. Transforming Data with Intelligence. [citado 23 de agosto de 2020]. Disponible en: https://tdwi.org/articles/2019/05/03/diq-all-data-quality-best-practices-for-data-driven-organizations.aspx

Taylor J. Clean your data with unsupervised machine learning [Internet]. Towards Data Science. 2018 [citado 17 de marzo de 2019]. Disponible en: https://towardsdatascience.com/clean-your-data-with-unsupervised-machine-learning-8491af733595

Januzaj E, Januzaj V. An Application of Data Mining to Identify Data Quality Problems. En: 2009 Third International Conference on Advanced Engineering Computing and Applications in Sciences. 2009. p. 17-22.

Liu H, Kumar TKA, Thomas JP. Cleaning Framework for Big Data - Object Identification and Linkage. En: 2015 IEEE International Congress on Big Data. 2015. p. 215-21.

LEILA - Librería de calidad de datos — documentación de LEILA - 0.1 [Internet]. [citado 27 de agosto de 2020]. Disponible en: https://ucd-dnp.github.io/leila/

Recibido 2021-06-09
Aceptado 2021-11-26
Publicado 2022-06-07