Video: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2025
Debido a que muchas implementaciones de Hadoop existentes todavía no están utilizando aún otro negociador de recursos (YARN), eche un vistazo rápido a cómo Hadoop administró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en la función que los daemons maestros JobTracker y los daemons esclavos TaskTracker jugaron en el manejo del procesamiento de MapReduce.
El objetivo de emplear sistemas distribuidos es poder desplegar los recursos informáticos en una red de computadoras autónomas de una manera que sea tolerante a fallas, fácil y de bajo costo.
En un sistema distribuido como Hadoop, donde tiene un clúster de nodos informáticos autónomos, todos trabajando en paralelo, una gran complejidad consiste en garantizar que todas las piezas funcionen juntas. Como tales, estos sistemas suelen tener distintas capas para manejar diferentes tareas para soportar el procesamiento paralelo de datos.
Este concepto, conocido como separación de preocupaciones, asegura que si usted es, por ejemplo, el programador de la aplicación, no necesita preocuparse por los detalles específicos para, por ejemplo, la conmutación por error de tareas de mapa. En Hadoop, el sistema consta de estas cuatro capas distintas, como se muestra:
-
Almacenamiento distribuido: El Sistema de archivos distribuidos Hadoop (HDFS) es la capa de almacenamiento donde se almacenan los datos, los resultados intermedios y los conjuntos de resultados finales.
-
Gestión de recursos: Además del espacio en disco, todos los nodos esclavos del clúster Hadoop tienen ciclos de CPU, RAM y ancho de banda de red. Un sistema como Hadoop debe poder parcelar estos recursos para que múltiples aplicaciones y usuarios puedan compartir el clúster de manera predecible y sintonizable. Este trabajo lo realiza el daemon JobTracker.
-
Marco de procesamiento: El flujo de proceso de MapReduce define la ejecución de todas las aplicaciones en Hadoop 1. Esto comienza con la fase del mapa; continúa con la agregación con shuffle, sort o merge; y termina con la fase de reducción. En Hadoop 1, esto también es administrado por el daemon JobTracker, con la ejecución local administrada por daemons TaskTracker que se ejecutan en los nodos esclavos.
-
Interfaz de programación de aplicaciones (API): Las aplicaciones desarrolladas para Hadoop 1 deben codificarse utilizando la API de MapReduce. En Hadoop 1, los proyectos Hive y Pig proporcionan a los programadores interfaces más fáciles para escribir aplicaciones de Hadoop y, debajo del capó, su código se compila en MapReduce.
En el mundo de Hadoop 1 (que era el único mundo que tenía hasta hace muy poco), todo el procesamiento de datos giraba en torno a MapReduce.