“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud
Contenido principal del artículo
La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información. La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.
IEEE Potentials Magazine, November/December 2020 [Internet]. [citado 24 de abril de 2021]. Disponible en: //read.nxtbook.com/ieee/potentials/novem ber_december_2020/index.html
Carlo Batini, Monica Scannapieco. DATA AND INFORMATION QUALITY. I. Switzerland: Springer International Publishing; 2016. 500 p.
Sammut C, Webb GI, editores. Encyclopedia of Machine Learning and Data Mining [Internet]. Boston, MA: Springer US; 2017 [citado 23 de marzo de 2019]. Disponible en: http://link.springer.com/10.1007/978-1- 4899-7687-1
Who we are - Eurostat [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://ec.europa.eu/eurostat/about/whowe-are
Grow BG, January 24 2020. Data Quality Predictions for 2020 [Internet]. Transforming Data with Intelligence. [citado 21 de agosto de 2020]. Disponible en: https://tdwi.org/articles/2020/01/24/diqall-data-quality-predictions-for-2020.aspx
Redman TC. Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review [Internet]. 22 de septiembre de 2016 [citado 21 de agosto de 2020]; Disponible en: https://hbr.org/2016/09/bad-data-coststhe-u-s-3-trillion-per-year
Grow BG, July 6 2018. Reducing the Impact of Bad Data on Your Business [Internet]. Transforming Data with Intelligence. [citado 21 de agosto de 2020]. Disponible en: https://tdwi.org/articles/2018/07/06/diqall-reducing-the-impact-of-bad-data.aspx
Fisher CW, Kingma BR. Criticality of data quality as exemplified in two disasters. Inf Manage. 1 de diciembre de 2001;39(2):109-16.
crodwflower. 2016 DATA SCIENCE REPORT. 2016 [Internet]. Disponible en: https://visit.figure-eight.com/rs/416-ZBE142/images/CrowdFlower_DataScienceR eport_2016.pdf?mkt_tok=eyJpIjoiTVRKa U9HWTBOVGxpWXpSbSIsInQiOiJ2V XJRdzlQK1RaRlNzeVdLamF2ZkUrR1w vUnJlNDY3Mk03bm42MExwWEZoNX VJOEFHWUVXdjJ0Q3FSc1RvTCtFK21 mUmkyUFwvUUJYMzBCcm5YU0xldE d3MENOVTNKaW10QjBxTDBVVHhlT kNab3NqV1Q5TllSREhNelhxYVBMQ3 ZEIn0%3D
ISO 9000:2015(en), Quality management systems — Fundamentals and vocabulary [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://www.iso.org/obp/ui/#iso:std:4548 1:en
Batini C, Scannapieco M. Data Quality Dimensions. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 21-51. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/ 978-3-319-24106-7_2
Batini C, Scannapieco M. Activities for Information Quality. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 155-75. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/ 978-3-319-24106-7_7
Batini C, Scannapieco M. Object Identification. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 177-215. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/ 978-3-319-24106-7_8
Liu H, Kumar TKA, Thomas JP. Cleaning Framework for Big Data - Object Identification and Linkage. En: 2015 IEEE International Congress on Big Data. 2015. p. 215-21.
Tejada S, Knoblock CA, Minton S. Learning object identification rules for information integration. Inf Syst. diciembre de 2001;26(8):607-33.
Zhang X-D. Machine Learning. En: Zhang X-D, editor. A Matrix Algebra Approach to Artificial Intelligence [Internet]. Singapore: Springer; 2020 [citado 25 de octubre de 2021]. p. 223-440. Disponible en: https://doi.org/10.1007/978-981-15- 2770-8_6
El Naqa I, Murphy MJ. What Is Machine Learning? En: El Naqa I, Li R, Murphy MJ, editores. Machine Learning in Radiation Oncology: Theory and Applications [Internet]. Cham: Springer International Publishing; 2015 [citado 25 de octubre de 2021]. p. 3-11. Disponible en: https://doi.org/10.1007/978-3-319- 18305-3_1
Bonaccorso G. Machine Learning Algorithms. Packt Publishing Ltd; 2017. 352 p.
Cunningham P, Cord M, Delany SJ. Supervised Learning. En: Cord M, Cunningham P, editores. Machine Learning Techniques for Multimedia: Case Studies on Organization and Retrieval [Internet]. Berlin, Heidelberg: Springer; 2008 [citado 25 de octubre de 2021]. p. 21-49. (Cognitive Technologies). Disponible en: https://doi.org/10.1007/978-3-540-75171- 7_2
jasallen. Create machine learning models - Learn [Internet]. [citado 25 de octubre de 2021]. Disponible en: https://docs.microsoft.com/enus/learn/paths/create-machine-learnmodels/
Machine Learning A-Z (Python & R in Data Science Course) [Internet]. Udemy. [citado 25 de octubre de 2021]. Disponible en: https://www.udemy.com/course/machinel earning/
Machine Learning with R : Learn How to Use R to Apply Powerful Machine Learning Methods and Gain an Insight Into Real-world Applications [Internet]. [citado 2 de marzo de 2019]. Disponible en: http://web.a.ebscohost.com.ezproxyegre.u niandes.edu.co:8888/ehost/ebookviewer/e book/bmxlYmtfXzY1NjIyMl9fQU41?sid =41844cd0-1074-4ed9-8f60- ae228952ea8a@sessionmgr4008&vid=0 &format=EB&rid=1
Workshops SuperDataScience - Machine Learning | AI | Data Science Career | Analytics | Success [Internet]. SuperDataScience. [citado 25 de octubre de 2021]. Disponible en: https://www.superdatascience.com/works hops
Friedman JH. Stochastic gradient boosting. Comput Stat Data Anal. 28 de febrero de 2002;38(4):367-78.
Frontiers | Gradient boosting machines, a tutorial | Frontiers in Neurorobotics [Internet]. [citado 25 de octubre de 2021]. Disponible en: https://www.frontiersin.org/articles/10.33 89/fnbot.2013.00021/full
Murthy Sreerama. Automatic Construction of Decision Trees from Data: A Multi-Disciplinary Survey.
What are Neural Networks? [Internet]. 2021 [citado 25 de octubre de 2021]. Disponible en: https://www.ibm.com/cloud/learn/neuralnetworks
Müller H, Freytag J-C. Problems, Methods, and Challenges in Comprehensive Data Cleansing. :23.
Fernández SF, Sánchez JMC, Córdoba A, Largo AC. Estadística Descriptiva. ESIC Editorial; 2002. 576 p.
Google Colaboratory [Internet]. [citado 29 de junio de 2020]. Disponible en: https://colab.research.google.com/notebo oks/welcome.ipynb?hl=es-419
hrasheed-msft. ¿Qué es Azure HDInsight? [Internet]. [citado 27 de abril de 2020]. Disponible en: https://docs.microsoft.com/eses/azure/hdinsight/hdinsight-overview
J. Wang, C. Zhang, X. Wu, H. Qi and J. Wang. SVM-OD: A New SVM Algorithm for Outlier Detection - Google Académico. En 2003 [citado 24 de agosto de 2020]. Disponible en: https://scholar.google.com/scholar?hl=es &as_sdt=0%2C5&q=SVMOD%3A+A+New+SVM+Algorithm+for +Outlier+Detection&btnG=
Factores que afectan el peso y la salud | NIDDK [Internet]. National Institute of Diabetes and Digestive and Kidney Diseases. [citado 16 de mayo de 2020]. Disponible en: https://www.niddk.nih.gov/healthinformation/informacion-de-lasalud/control-de-peso/informacion-sobresobrepeso-obesidad-adultos/factoresafectan
Lean Yu, Shouyang Wang, Lai KK. An integrated data preparation scheme for neural network data analysis. IEEE Trans Knowl Data Eng. febrero de 2006;18(2):217-30.
Sumithra V.S,Subu Surendran. A Review of Various Linear and Non Linear Dimensionality Reduction Techniques. Int J Comput Sci Inf Technol. 6.
Sidi F, Shariat Panahy PH, Affendey LS, Jabar MA, Ibrahim H, Mustapha A. Data quality: A survey of data quality dimensions. En: 2012 International Conference on Information Retrieval Knowledge Management. 2012. p. 300-4.
Grow BG, May 3 2019. Data Quality Best Practices for Today’s Data-Driven Organization [Internet]. Transforming Data with Intelligence. [citado 23 de agosto de 2020]. Disponible en: https://tdwi.org/articles/2019/05/03/diqall-data-quality-best-practices-for-datadriven-organizations.aspx
Taylor J. Clean your data with unsupervised machine learning [Internet]. Towards Data Science. 2018 [citado 17 de marzo de 2019]. Disponible en: https://towardsdatascience.com/clean-your-data-with-unsupervised-machinelearning-8491af733595
Januzaj E, Januzaj V. An Application of Data Mining to Identify Data Quality Problems. En: 2009 Third International Conference on Advanced Engineering Computing and Applications in Sciences. 2009. p. 17-22.
LEILA - Librería de calidad de datos — documentación de LEILA - 0.1 [Internet]. [citado 27 de agosto de 2020]. Disponible en: https://ucd-dnp.github.io/leila/
Aceptado 2021-11-26
Publicado 2022-05-26

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores que publican en esta revista están de acuerdo con los siguientes términos:
Los autores ceden los derechos patrimoniales a la revista y a la Universidad del Valle sobre los manuscritos aceptados, pero podrán hacer los reusos que consideren pertinentes por motivos profesionales, educativos, académicos o científicos, de acuerdo con los términos de la licencia que otorga la revista a todos sus artículos.
Los artículos serán publicados bajo la licencia Creative Commons 4.0 BY-NC-SA (de atribución, no comercial, sin obras derivadas).