Video: Impala Tutorial | Hadoop Impala Tutorial | Hadoop for Beginners | Hadoop Training | Intellipaat 2025
Cloudera es un proveedor líder de servicios y software Apache Hadoop en el mercado de big data. Al igual que Apache Drill, la tecnología Impala de Cloudera busca mejorar el tiempo de respuesta de consulta interactiva para los usuarios de Hadoop. Apache Hive ha proporcionado un mecanismo de consulta familiar y potente para los usuarios de Hadoop, pero los tiempos de respuesta de las consultas a menudo son inaceptables debido a la dependencia de Hive de MapReduce. La respuesta de Cloudera a este problema es Impala.
Cloudera ha desarrollado un motor de consultas MPP, escrito en C ++, para reemplazar la capa de MapReduce apalancada por Apache Hive. A diferencia de Dremel y Drill, Cloudera decidió que un motor MPP C ++ nativo, en lugar de un motor Java, era la respuesta para consultas de Hadoop rápidas e interactivas.
Tenga en cuenta que Impala utiliza HiveQL como una interfaz de programación, y los motores Query Exec de Impala comparten el mismo nodo de datos HDFS, de acuerdo con el enfoque Hadoop de ubicación conjunta de datos con tareas de procesamiento. Impala también puede usar HBase como un almacén de datos. En este sentido, Impala es una extensión de Apache Hadoop, proporcionando una alternativa de alto rendimiento al modelo Hive-on-top-of-MapReduce.
Cloudera y Twitter lideraron el desarrollo del nuevo formato de archivo Hadoop, que se puede usar con Impala y está disponible como código abierto en GitHub. El formato de archivo Parquet proporciona un medio columnar robusto para almacenar datos en Hadoop. Admite compresión y codificación altamente eficientes, y es efectivo para almacenar estructuras de datos anidados.
Puede encontrar la tecnología Impala de Cloudera, que también se inspiró en la invención de Dremel de Google.
