Hogar Finanzas personales Máquina Aprendiendo con Mahout en Hadoop - dummies

Máquina Aprendiendo con Mahout en Hadoop - dummies

Tabla de contenido:

Video: Cómo Instalar Hadoop paso a paso 2025

Video: Cómo Instalar Hadoop paso a paso 2025
Anonim

Aprendizaje automático se refiere a una rama de las técnicas de inteligencia artificial que proporciona herramientas que permiten a las computadoras mejorar su análisis en base a eventos previos. Estos sistemas informáticos aprovechan los datos históricos de intentos anteriores para resolver una tarea con el fin de mejorar el rendimiento de intentos futuros en tareas similares.

En términos de resultados esperados, el aprendizaje automático puede parecerse mucho a la palabra de moda "extracción de datos"; sin embargo, el primero se enfoca en la predicción a través del análisis de datos de entrenamiento preparados , el último se refiere al descubrimiento de conocimiento a partir de datos brutos sin procesar . Por esta razón, el aprendizaje automático depende en gran medida de las técnicas de modelado estadístico y se basa en áreas de teoría de probabilidad y reconocimiento de patrones.

Mahout es un proyecto de fuente abierta de Apache, que ofrece bibliotecas Java para algoritmos de aprendizaje automático distribuidos o escalables.

Estos algoritmos cubren tareas clásicas de aprendizaje automático, como clasificación, clustering, análisis de reglas de asociación y recomendaciones. Aunque las bibliotecas de Mahout están diseñadas para funcionar dentro de un contexto de Apache Hadoop, también son compatibles con cualquier sistema que soporte el marco MapReduce. Por ejemplo, Mahout proporciona bibliotecas Java para colecciones Java y operaciones matemáticas comunes (álgebra lineal y estadísticas) que se pueden usar sin Hadoop.

Como puede ver, las bibliotecas de Mahout están implementadas en Java MapReduce y se ejecutan en su clúster como colecciones de trabajos de MapReduce en YARN (con MapReduce v2) o MapReduce v1.

Mahout es un proyecto en evolución con múltiples colaboradores. En el momento de escribir esto, la colección de algoritmos disponibles en las bibliotecas de Mahout de ninguna manera está completa; sin embargo, la colección de algoritmos implementados para su uso continúa expandiéndose con el tiempo.

Hay tres categorías principales de algoritmos Mahout para soportar el análisis estadístico: filtrado colaborativo, clustering y clasificación.

Filtrado colaborativo

Mahout fue diseñado específicamente para servir como un motor de recomendación, empleando lo que se conoce como algoritmo de filtrado colaborativo . Mahout combina la riqueza de los algoritmos de agrupación y clasificación a su disposición para producir recomendaciones más precisas basadas en datos de entrada.

Estas recomendaciones a menudo se aplican en contra de las preferencias del usuario, teniendo en cuenta el comportamiento del usuario. Al comparar las selecciones anteriores de un usuario, es posible identificar a los vecinos más cercanos (personas con un historial de decisiones similar) a ese usuario y predecir selecciones futuras en función del comportamiento de los vecinos.

Considere un motor de "perfil de sabor" como Netflix, un motor que recomienda clasificaciones basadas en los hábitos de visualización y anotación anteriores de ese usuario. En este ejemplo, los patrones de comportamiento para un usuario se comparan con el historial del usuario y las tendencias de los usuarios con gustos similares que pertenecen a la misma comunidad de Netflix, para generar una recomendación de contenido que aún no ha visto el usuario en cuestión.

Agrupación

A diferencia del método de aprendizaje supervisado para la función de motor de recomendación de Mahout, la agrupación es una forma de aprendizaje no supervisado, donde las etiquetas de los datos se desconocen con antelación y deben inferirse de los datos sin intervención humana (la parte supervisada ).

Generalmente, los objetos dentro de un grupo deben ser similares; los objetos de diferentes conglomerados deben ser diferentes. Las decisiones que se toman con anticipación sobre la cantidad de clusters que se generarán, los criterios para medir la "similitud" y la representación de los objetos afectarán el etiquetado producido por los algoritmos de agrupamiento.

Por ejemplo, un motor de clúster que se proporciona con una lista de artículos de noticias debería poder definir grupos de artículos dentro de esa colección que discutan temas similares.

Supongamos que se agrupen un conjunto de artículos sobre Canadá, Francia, China, silvicultura, petróleo y vino. Si la cantidad máxima de clústeres se estableció en 2, su algoritmo podría generar categorías como "regiones" e "industrias". "Los ajustes en la cantidad de clústeres producirán diferentes categorizaciones; por ejemplo, la selección de 3 clusters puede dar lugar a agrupaciones por parejas de categorías de la industria nacional.

Clasificaciones

Los algoritmos de clasificación utilizan conjuntos de datos de entrenamiento etiquetados como seres humanos, donde la categorización y clasificación de todas las entradas futuras se rige por estas etiquetas conocidas. Estos clasificadores implementan lo que se conoce como aprendizaje supervisado en el mundo del aprendizaje automático.

Las reglas de clasificación, establecidas por los datos de capacitación, que han sido etiquetadas por expertos de dominio con anticipación, se aplican luego contra datos sin procesar y sin procesar para determinar mejor su etiquetado apropiado.

Estas técnicas suelen ser utilizadas por los servicios de correo electrónico que intentan clasificar el correo electrónico no deseado antes de que crucen su bandeja de entrada. Específicamente, dado un correo electrónico que contiene un conjunto de frases conocidas que comúnmente ocurren juntas en una determinada clase de correo no deseado, entregado desde una dirección que pertenece a una botnet conocida, su algoritmo de clasificación puede identificar confiablemente el correo electrónico como malicioso.

Además de la gran cantidad de algoritmos estadísticos que Mahout proporciona de forma nativa, también está disponible un módulo Algoritmos definidos por el usuario (UDA). Los usuarios pueden anular algoritmos existentes o implementar los suyos a través del módulo UDA. Esta sólida personalización permite el ajuste del rendimiento de los algoritmos nativos de Mahout y la flexibilidad para abordar desafíos únicos de análisis estadístico.

Si Mahout puede verse como una extensión de análisis estadístico para Hadoop, UDA debería verse como una extensión de las capacidades estadísticas de Mahout.

Las aplicaciones tradicionales de análisis estadístico (como SAS, SPSS y R) incluyen potentes herramientas para generar flujos de trabajo. Estas aplicaciones utilizan interfaces de usuario gráficas intuitivas que permiten una mejor visualización de datos. Los scripts de Mahout siguen un patrón similar al de estas otras herramientas para generar flujos de trabajo de análisis estadísticos.

Durante el paso final de exploración y visualización de datos, los usuarios pueden exportar a formatos legibles por humanos (JSON, CSV) o aprovechar las herramientas de visualización como Tableau Desktop.

La arquitectura de Mahout se encuentra sobre la plataforma Hadoop. Hadoop libera al programador al separar la tarea de programar trabajos de MapReduce de la contabilidad compleja necesaria para administrar el paralelismo en los sistemas de archivos distribuidos. Con el mismo espíritu, Mahout ofrece abstracciones amigables con programadores de complejos algoritmos estadísticos, listos para su implementación con el marco Hadoop.

Máquina Aprendiendo con Mahout en Hadoop - dummies

Selección del editor

Cómo usar los menús Nikon D90 - muñecos

Cómo usar los menús Nikon D90 - muñecos

Usando una SLR digital le permite usar las mejores técnicas fotográficas de una cámara manual, o aprovechar las funciones avanzadas de una cámara. Accedes a muchas de las características de tu D90 a través de los menús internos, que se explican aquí. Los menús Nikon D90, de manera conveniente, aparecen cuando presiona el botón Menú. Las funciones se agrupan en seis ...

Cómo usar el modo Guía en su Nikon D3200 - muñecos

Cómo usar el modo Guía en su Nikon D3200 - muñecos

Su Nikon D3200 ofrece seis modos de escena automáticos , que seleccionan configuraciones diseñadas para capturar escenas específicas de maneras que tradicionalmente se consideran mejores desde un punto de vista creativo (Retrato, Paisaje, Niño, Primer plano, Deportes, Retrato nocturno). Pero si quiere más, la opción de Operación avanzada disponible en el modo Guía hace que sea fácil jugar con ...

Cómo utilizar los menús guiados Nikon D3300 - maniquíes

Cómo utilizar los menús guiados Nikon D3300 - maniquíes

Presionando el botón de menú Nikon D3300 le da acceso a un montón de opciones además de las que controla a través de los botones y diales externos. Pero qué tipo de pantallas de menú ve depende de la configuración del dial de modo: Guía: Al presionar el botón Menú, aparece la primera pantalla de la guía ...

Selección del editor

Practicar preguntas de Matemáticas para Praxis: área y circunferencia de círculos: maniquíes

Practicar preguntas de Matemáticas para Praxis: área y circunferencia de círculos: maniquíes

Cuando tomes En el examen básico de Praxis, vale la pena tener un conocimiento completo de los círculos, especialmente su área y circunferencia. En las siguientes preguntas de práctica, trabajas tanto hacia atrás (encontrar el radio de un círculo dada su circunferencia) como hacia adelante (encontrar el área de un círculo dado su radio). Preguntas de práctica Un círculo tiene una circunferencia de 20π in. ...

Una descripción general de la educación elemental de Praxis Examen 5017 - dummies

Una descripción general de la educación elemental de Praxis Examen 5017 - dummies

La escuela primaria Praxis Educación: plan de estudios, El examen de Instrucción y Evaluación (5017) usa 120 preguntas para evaluar el desarrollo curricular, la instrucción y las habilidades de evaluación en cinco grupos de asignaturas: Lectura y artes del lenguaje Matemáticas Ciencias Estudios sociales Arte, música y educación física Las 120 preguntas del examen se dividen en cinco grupos de asignaturas según estas proporciones: ...

Practica preguntas de Matemáticas para Praxis: Conversión de Fracciones - tontos

Practica preguntas de Matemáticas para Praxis: Conversión de Fracciones - tontos

A veces está bien ser inapropiado. Ejemplo: el examen básico de Praxis, donde se le puede pedir que convierta fracciones entre sus formas mixtas, simples e impropias. En las siguientes preguntas de práctica, comienzas con una forma simplificada de una fracción y tienes que encontrar el original, y luego comienzas con una mezcla ...

Selección del editor

Máquina Aprendiendo con Mahout en Hadoop - dummies

Máquina Aprendiendo con Mahout en Hadoop - dummies

Aprendizaje automático se refiere a una rama de las técnicas de inteligencia artificial que proporciona herramientas que permiten computadoras para mejorar su análisis basado en eventos previos. Estos sistemas informáticos aprovechan los datos históricos de intentos anteriores para resolver una tarea con el fin de mejorar el rendimiento de intentos futuros en tareas similares. En términos de resultados esperados, el aprendizaje automático ...

Ejecutando aplicaciones antes de Hadoop 2 - dummies

Ejecutando aplicaciones antes de Hadoop 2 - dummies

Debido a que muchas implementaciones de Hadoop existentes todavía no están utilizando Yet Another Resource Negotiator ( YARN), eche un vistazo rápido a cómo Hadoop administró su procesamiento de datos antes de los días de Hadoop 2. Concéntrese en la función que los daemons maestros JobTracker y los daemons esclavos TaskTracker jugaron al manejar el procesamiento de MapReduce. El objetivo de emplear sistemas distribuidos ...

Riesgo Modelar con Hadoop - dummies

Riesgo Modelar con Hadoop - dummies

Modelar el riesgo es otro caso de uso importante que Hadoop energiza. Descubrirá que coincide estrechamente con el caso de uso de detección de fraude en el sentido de que se trata de una disciplina basada en modelos. Cuantos más datos tenga y más pueda "conectar los puntos", más a menudo sus resultados producirán mejores modelos de predicción de riesgos. La palabra que lo abarca todo ...