Tabla de contenido:
- ¿Qué es la información gráfica?
- La aplicación más conocida para bases de datos de gráficos es el algoritmo PageRank de Google, que calcula las relaciones de enlace entre todas las páginas web conocidas. Google representa la web como un gráfico gigante, donde las páginas web son nodos y los enlaces de una página a otra se representan como bordes. (Google compartió la riqueza al publicar un documento que describe su proyecto de análisis de gráficos, etiquetado Pregel, en 2010.) El procesamiento de gráficos que interesaba a Google incluía el cálculo de la cantidad de conexiones entrantes para cada página web.
- A partir de la primavera de 2014, el análisis de gráficos en Hadoop permanece en sus etapas iniciales. Con la llegada de YARN en Hadoop 2, el análisis de gráficos y otras técnicas de procesamiento especializadas serán cada vez más populares en Hadoop. Muchos de los sitios sociales mencionados en este artículo usan sus propias bases de datos de gráficos patentados y motores de procesamiento, pero Facebook es un usuario prominente de Giraph. Debido al sello de aprobación (implícito) de Facebook, Giraph se ha convertido en una opción popular para el análisis de gráficos en Hadoop, pero tiene algunas limitaciones. Es únicamente un motor de procesamiento porque carga datos como un gráfico en la memoria del clúster, y está optimizado para consultas orientadas a lotes.
Video: Hadoop Processing Frameworks 2024
Una de las tecnologías NoSQL emergentes más interesantes implica el almacenamiento y procesamiento de datos de gráficos. Puede pensar que esta afirmación es una noticia antigua porque los científicos en computación han estado desarrollando técnicas de análisis de gráficos durante décadas. Lo que dices puede ser cierto, pero lo nuevo es que al usar Hadoop, puedes hacer un análisis de gráficos a gran escala.
¿Qué es la información gráfica?
Un gráfico en términos de datos es simplemente una representación de entidades individuales y sus relaciones. Las entidades de un gráfico se conocen como nodos (o vértices ), y las relaciones entre entidades en un gráfico se conocen como bordes (o conexiones >). Representar conjuntos de datos en un gráfico, a diferencia de las filas y columnas tradicionales, hace que sea mucho más fácil procesar sus datos de forma que las relaciones entre los objetos sean claras. Los cálculos de gráficos típicos están representados por la distancia de ruta más corta entre múltiples nodos en su gráfica, o simplemente por cuántos nodos tienen conexiones de cierto tipo con un nodo específico.
La aplicación más conocida para bases de datos de gráficos es el algoritmo PageRank de Google, que calcula las relaciones de enlace entre todas las páginas web conocidas. Google representa la web como un gráfico gigante, donde las páginas web son nodos y los enlaces de una página a otra se representan como bordes. (Google compartió la riqueza al publicar un documento que describe su proyecto de análisis de gráficos, etiquetado Pregel, en 2010.) El procesamiento de gráficos que interesaba a Google incluía el cálculo de la cantidad de conexiones entrantes para cada página web.
Análisis de gráficos en Hadoop
A partir de la primavera de 2014, el análisis de gráficos en Hadoop permanece en sus etapas iniciales. Con la llegada de YARN en Hadoop 2, el análisis de gráficos y otras técnicas de procesamiento especializadas serán cada vez más populares en Hadoop. Muchos de los sitios sociales mencionados en este artículo usan sus propias bases de datos de gráficos patentados y motores de procesamiento, pero Facebook es un usuario prominente de Giraph. Debido al sello de aprobación (implícito) de Facebook, Giraph se ha convertido en una opción popular para el análisis de gráficos en Hadoop, pero tiene algunas limitaciones. Es únicamente un motor de procesamiento porque carga datos como un gráfico en la memoria del clúster, y está optimizado para consultas orientadas a lotes.
Otra solución de procesamiento de gráficos proviene de Aurelius, una compañía que ha lanzado un conjunto de herramientas de análisis de gráficos de código abierto para Hadoop. En el centro de sus ofertas está Titan, una base de datos de gráficos que usa HBase como capa de persistencia optimizada para consultas interactivas, y Faunus, un motor de procesamiento de gráficos que almacena una instantánea de un gráfico de Titán en HDFS y ejecuta trabajos de MapReduce en su contra.. Tanto para las aplicaciones interactivas (Titán) como para las aplicaciones por lotes (Faunus), Aurelius tiene la API de cruce de gráficos común llamada Gremlin.
Finalmente, el proyecto Apache Spark tiene la rama GraphX, que permite la generación de datos de gráficos y luego el procesamiento, todo dentro del marco de Spark.