“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud
Contenido principal del artículo
La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información. La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.
IEEE Potentials Magazine, November/December 2020 [Internet]. [citado 24 de abril de 2021]. Disponible en: //read.nxtbook.com/ieee/potentials/november_december_2020/index.html
Carlo Batini, Monica Scannapieco. DATA AND INFORMATION QUALITY. I. Switzerland: Springer International Publishing; 2016. 500 p.
Sammut C, Webb GI, editores. Encyclopedia of Machine Learning and Data Mining [Internet]. Boston, MA: Springer US; 2017 [citado 23 de marzo de 2019]. available in: http://link.springer.com/10.1007/978-1-4899-7687-1
Who we are - Eurostat [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://ec.europa.eu/eurostat/about/who-we-are
Grow BG, January 24 2020. Data Quality Predictions for 2020 [Internet]. Transforming Data with Intelligence. [citado 21 de August de 2020]. Disponible en: https://tdwi.org/articles/2020/01/24/diq-all-data-quality-predictions-for-2020.aspx
Redman TC. Bad Data Costs the U.S. $3 Trillion Per Year. Harvard Business Review [Internet]. 22 de septiembre de 2016 [citado 21 de agosto de 2020]; Disponible en: https://hbr.org/2016/09/bad-data-costs-the-u-s-3-trillion-per-year
Grow BG, July 6 2018. Reducing the Impact of Bad Data on Your Business [Internet]. Transforming Data with Intelligence. [citado 21 de August de 2020]. Disponible en: https://tdwi.org/articles/2018/07/06/diq-all-reducing-the-impact-of-bad-data.aspx
Fisher CW, Kingma BR. Criticality of data quality as exemplified in two disasters. Inf Manage. 1 de diciembre de 2001;39(2):109-16.
crodwflower. 2016 DATA SCIENCE REPORT. 2016 [Internet]. Disponible en: https://visit.figure-eight.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf?mkt_tok=eyJpIjoiTVRKaU9HWTBOVGxpWXpSbSIsInQiOiJ2VXJRdzlQK1RaRlNzeVdLamF2ZkUrR1wvUnJlNDY3Mk03bm42MExwWEZoNXVJOEFHWUVXdjJ0Q3FSc1RvTCtFK21mUmkyUFwvUUJYMzBCcm5YU0xldEd3MENOVTNKaW10QjBxTDBVVHhlTkNab3NqV1Q5TllSREhNelhxYVBMQ3ZEIn0%3D
ISO 9000:2015(en), Quality management systems — Fundamentals and vocabulary [Internet]. [citado 23 de agosto de 2020]. Disponible en: https://www.iso.org/obp/ui/#iso:std:45481:en
Batini C, Scannapieco M. Data Quality Dimensions. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 21-51. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/978-3-319-24106-7_2
Batini C, Scannapieco M. Activities for Information Quality. En: Data and Information Quality [Internet]. Springer, Cham; 2016 [citado 2 de julio de 2018]. p. 155-75. (Data-Centric Systems and Applications). Disponible en: https://link.springer.com/chapter/10.1007/978-3-319-24106-7_7
Müller H, Freytag J-C. Problems, Methods, and Challenges in Comprehensive Data Cleansing. :23.
Fernández SF, Sánchez JMC, Córdoba A, Largo AC. Estadística Descriptiva. ESIC Editorial; 2002. 576 p.
Google Colaboratory [Internet]. [citado 29 de junio de 2020]. Disponible en: https://colab.research.google.com/notebooks/welcome.ipynb?hl=es-419
hrasheed-msft. ¿Qué es Azure HDInsight? [Internet]. [citado 27 de abril de 2020]. Disponible en: https://docs.microsoft.com/es-es/azure/hdinsight/hdinsight-overview
J. Wang, C. Zhang, X. Wu, H. Qi and J. Wang. SVM-OD: A New SVM Algorithm for Outlier Detection - Google Académico. En 2003 [citado 24 de agosto de 2020]. Disponible en: https://scholar.google.com/scholar?hl=es&as_sdt=0%2C5&q=SVM-OD%3A+A+New+SVM+Algorithm+for+Outlier+Detection&btnG=
Factores que afectan el peso y la salud | NIDDK [Internet]. National Institute of Diabetes and Digestive and Kidney Diseases. [citado 16 de mayo de 2020]. Disponible en: https://www.niddk.nih.gov/health-information/informacion-de-la-salud/control-de-peso/informacion-sobre-sobrepeso-obesidad-adultos/factores-afectan
Lean Yu, Shouyang Wang, Lai KK. An integrated data preparation scheme for neural network data analysis. IEEE Trans Knowl Data Eng. febrero de 2006;18(2):217-30.
Sumithra V.S,Subu Surendran. A Review of Various Linear and Non Linear Dimensionality Reduction Techniques. Int J Comput Sci Inf Technol. 6.
Sidi F, Shariat Panahy PH, Affendey LS, Jabar MA, Ibrahim H, Mustapha A. Data quality: A survey of data quality dimensions. En: 2012 International Conference on Information Retrieval Knowledge Management. 2012. p. 300-4.
Grow BG, May 3 2019. Data Quality Best Practices for Today's Data-Driven Organization [Internet]. Transforming Data with Intelligence. [citado 23 de agosto de 2020]. Disponible en: https://tdwi.org/articles/2019/05/03/diq-all-data-quality-best-practices-for-data-driven-organizations.aspx
Taylor J. Clean your data with unsupervised machine learning [Internet]. Towards Data Science. 2018 [citado 17 de marzo de 2019]. Disponible en: https://towardsdatascience.com/clean-your-data-with-unsupervised-machine-learning-8491af733595
Januzaj E, Januzaj V. An Application of Data Mining to Identify Data Quality Problems. En: 2009 Third International Conference on Advanced Engineering Computing and Applications in Sciences. 2009. p. 17-22.
Liu H, Kumar TKA, Thomas JP. Cleaning Framework for Big Data - Object Identification and Linkage. En: 2015 IEEE International Congress on Big Data. 2015. p. 215-21.
LEILA - Librería de calidad de datos — documentación de LEILA - 0.1 [Internet]. [citado 27 de agosto de 2020]. Disponible en: https://ucd-dnp.github.io/leila/
Descargas

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores que publican en esta revista están de acuerdo con los siguientes términos:
- Los autores conservan los derechos de autor y garantizan a la revista el derecho de ser la primera publicación del trabajo al igual que licenciado bajo una Creative Commons Attribution License que permite a otros compartir el trabajo con un reconocimiento de la autoría del trabajo y la publicación inicial en esta revista. A partir del volumen 22 número 1 (2020), la revista adopta la licencia CC BY-NC-SA 4.0.
- Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
- Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados.