Show simple item record

dc.contributor.advisorOrmeño Ayala, Yeshica Isela
dc.contributor.authorLoayza Blanco, Cady Indira
dc.date.accessioned2023-11-20T20:59:36Z
dc.date.available2023-11-20T20:59:36Z
dc.date.issued2023
dc.identifier.other253T20230503
dc.identifier.urihttp://hdl.handle.net/20.500.12918/7930
dc.description.abstractEl preprocesamiento de datos en entornos de Big Data es una etapa crucial para garantizar la calidad y la utilidad de los datos antes de que sean utilizados en análisis o aplicaciones. En este proceso existen desafíos por resolver, como, por ejemplo, campos sin formato, fechas con diferentes formatos, valores nulos, ruido, identificación de características relevantes. Superar estos problemas es fundamental para aprovechar al máximo el potencial de los datos y lograr análisis precisos y significativos. El objetivo principal de este trabajo es obtener conjuntos de datos limpios, libre de ruido que puedan considerarse correctos y útiles para el procesamiento de datos. Dado un dataset y eligiendo una herramienta como Apache Spark para el preprocesamiento de Big Data en un caso de uso, mediante los algoritmos existentes en esta librería se procede a limpiar, transformar, seleccionar características, manejo de valores atípicos, manejo de valores faltantes, normalización y estandarización, conversión de tipos de datos, reducción de ruido, muestreo de datos, para finalmente obtener como resultado datos preprocesados. También fueron aplicadas pruebas unitarias e integrales para cuantificar la calidad de datos de forma automática, preprocesando los datos en cada etapa. Se realizó casos de uso con datasets; COVID-19, sismos y diabetes, para demostrar la generación de datos de limpios mediante técnicas de preprocesamiento específicamente en Apache Spark. Como resultado ilustramos tareas de análisis y visualización.es_PE
dc.description.sponsorshipCONCYTEC
dc.formatapplication/pdfen_US
dc.language.isospaes_PE
dc.publisherUniversidad Nacional de San Antonio Abad del Cuscoes_PE
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectBig Dataes_PE
dc.subjectApache sparkes_PE
dc.subjectPreprocesamientoes_PE
dc.subjectAprendizaje automáticoes_PE
dc.titlePreprocesamiento de datos mediante herramientas de Big Dataes_PE
dc.typeinfo:eu-repo/semantics/bachelorThesis
thesis.degree.nameIngeniero Informático y de Sistemas
thesis.degree.grantorUniversidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y Mecánica
thesis.degree.disciplineIngeniería Informática y de Sistemas
dc.subject.ocdehttp://purl.org/pe-repo/ocde/ford#2.02.04
renati.author.dni43120865
renati.advisor.orcidhttps://orcid.org/0000-0002-5497-6928
renati.advisor.dni25002834
renati.typehttp://purl.org/pe-repo/renati/type#tesis
renati.levelhttp://purl.org/pe-repo/renati/nivel#tituloProfesional
renati.discipline612296
renati.jurorCarbajal Luna, Julio Cesar
renati.jurorBaca Cardenas, Lino Aquiles
renati.jurorMedrano Valencia, Ivan Cesar
renati.jurorPalma Ttito, Luis Beltran
dc.publisher.countryPE


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess