Arquitectura homogénea y heterogénea para el procesamiento distribuido de datos no estructurados con Framework Hadoop
Resumen
La propuesta del presente trabajo de investigación es diseñar e implementar una arquitectura homogénea y heterogénea basado en el framework Hadoop, bajo el modelo cliente/servidor en base a Hardware Commodity, generando así clúster homogénea y heterogénea. Dichos clústeres son tolerantes a fallos, acoplado su parte lógica con el modelo de programación MapReduce y luego almacenar los datos no estructurados en sistema de archivos distribuidos HDFS ubicados en nodos esclavos y dichos nodos al ser adicionados con memoria RAM, disco duro y E/S entrada/salida de datos hace que los tiempos de rendimiento disminuya tanto en clúster homogénea y heterogénea que permite procesar grandes volúmenes de datos con la función Map que convierte en números de pares clave/valor y la función Reduce procesa las tuplas clave/valor que llegan de la función Map los reduce para su salida final. La mejora de esta arquitectura con Framework Apache Hadoop es YARN (otro Administrador de recursos que mejora la versión anterior) por parte de Hadoop versión 2, que coordina exclusivamente los recursos del clúster y administra que bloques se distribuyen en discos locales los nodos esclavos y por último el almacenamiento en HDFS (Sistema de Archivos Distribuidos sobre Hadoop) que es donde se almacena los bloques y réplicas en cada nodo esclavo y el aprovisionamiento, administración y monitoreo de todo la arquitectura en conjunto como uno solo servidor-clúster. Logrando la característica escalable horizontalmente en arquitectura homogénea y heterogénea.
Colecciones
- Tesis [13]