Preprocesamiento de datos mediante herramientas de Big Data

Loayza Blanco, Cady Indira

dc.contributor.advisor	Ormeño Ayala, Yeshica Isela
dc.contributor.author	Loayza Blanco, Cady Indira
dc.date.accessioned	2023-11-20T20:59:36Z
dc.date.available	2023-11-20T20:59:36Z
dc.date.issued	2023
dc.identifier.other	253T20230503
dc.identifier.uri	http://hdl.handle.net/20.500.12918/7930
dc.description.abstract	El preprocesamiento de datos en entornos de Big Data es una etapa crucial para garantizar la calidad y la utilidad de los datos antes de que sean utilizados en análisis o aplicaciones. En este proceso existen desafíos por resolver, como, por ejemplo, campos sin formato, fechas con diferentes formatos, valores nulos, ruido, identificación de características relevantes. Superar estos problemas es fundamental para aprovechar al máximo el potencial de los datos y lograr análisis precisos y significativos. El objetivo principal de este trabajo es obtener conjuntos de datos limpios, libre de ruido que puedan considerarse correctos y útiles para el procesamiento de datos. Dado un dataset y eligiendo una herramienta como Apache Spark para el preprocesamiento de Big Data en un caso de uso, mediante los algoritmos existentes en esta librería se procede a limpiar, transformar, seleccionar características, manejo de valores atípicos, manejo de valores faltantes, normalización y estandarización, conversión de tipos de datos, reducción de ruido, muestreo de datos, para finalmente obtener como resultado datos preprocesados. También fueron aplicadas pruebas unitarias e integrales para cuantificar la calidad de datos de forma automática, preprocesando los datos en cada etapa. Se realizó casos de uso con datasets; COVID-19, sismos y diabetes, para demostrar la generación de datos de limpios mediante técnicas de preprocesamiento específicamente en Apache Spark. Como resultado ilustramos tareas de análisis y visualización.	es_PE
dc.description.sponsorship	CONCYTEC
dc.format	application/pdf	en_US
dc.language.iso	spa	es_PE
dc.publisher	Universidad Nacional de San Antonio Abad del Cusco	es_PE
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Big Data	es_PE
dc.subject	Apache spark	es_PE
dc.subject	Preprocesamiento	es_PE
dc.subject	Aprendizaje automático	es_PE
dc.title	Preprocesamiento de datos mediante herramientas de Big Data	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis
thesis.degree.name	Ingeniero Informático y de Sistemas
thesis.degree.grantor	Universidad Nacional de San Antonio Abad del Cusco. Facultad de Ingeniería Eléctrica, Electrónica, Informática y Mecánica
thesis.degree.discipline	Ingeniería Informática y de Sistemas
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#2.02.04
renati.author.dni	43120865
renati.advisor.orcid	https://orcid.org/0000-0002-5497-6928
renati.advisor.dni	25002834
renati.type	http://purl.org/pe-repo/renati/type#tesis
renati.level	http://purl.org/pe-repo/renati/nivel#tituloProfesional
renati.discipline	612296
renati.juror	Carbajal Luna, Julio Cesar
renati.juror	Baca Cardenas, Lino Aquiles
renati.juror	Medrano Valencia, Ivan Cesar
renati.juror	Palma Ttito, Luis Beltran
dc.publisher.country	PE

Ficheros en el ítem

Nombre:: 253T20230503_TC.pdf
Tamaño:: 2.367Mb
Formato:: PDF

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis [114]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess