Hadoop Sistema de archivos distribuido (HDFS) Alta disponibilidad - Dummies

Video: Clúster de alto rendimiento: Prueba, análisis de datos Big Data con Apache Hadoop 2024

A menudo en la infancia de Hadoop, una gran cantidad de discusión se centraba en la representación de NameNode de un único punto de falla. Hadoop, en general, siempre ha tenido una arquitectura robusta y tolerante a fallas, con la excepción de esta área clave. Sin NameNode, no hay clúster de Hadoop.

Usando Hadoop 2, puede configurar HDFS para que haya un NameNode activo y un NameNode en espera. Standby NameNode debe estar en un nodo maestro dedicado que esté configurado de manera idéntica al nodo maestro utilizado por el NameNode activo.

El nombre de nodo de espera no se queda sin leer mientras el NameNode maneja todas las solicitudes de direcciones de bloques. Standby NameNode, encargado de mantener el estado de las ubicaciones de los bloques y bloquear los metadatos en la memoria, maneja las responsabilidades de identificación de HDFS.

Active NameNode escribe entradas de diario en los cambios de archivos en la mayoría de los servicios de JournalNode, que se ejecutan en los nodos maestros. ( Nota: La solución de alta disponibilidad HDFS requiere al menos tres nodos maestros, y si hay más, solo puede haber un número impar.)

Si ocurre una falla, el Nodo de reposo lee primero todas las entradas de diario completadas (donde la mayoría de los Nodos de diario tienen una entrada, en otras palabras), para asegurarse de que el nuevo Nombre de nodo activo sea totalmente coherente con el estado del clúster

Zookeeper se usa para monitorear el NameNode activo y para manejar la logística de failover si el NameNode activo deja de estar disponible. Los NameNodes activos y en espera tienen controladores de conmutación por error Zookeeper (ZFC) dedicados que realizan las tareas de supervisión y conmutación por error. En el caso de una falla, ZFC informa a las instancias de Zookeeper en el clúster, que luego eligen un nuevo NameNode activo.

Apache Zookeeper proporciona servicios de coordinación y configuración para sistemas distribuidos, por lo que no es de extrañar que lo veamos en todo el lugar en Hadoop.