Video: Algoritmos de Clustering en R/Rstudio | Clasificación no supervisada | HDBSCAN, K-means,Data Science 2024
Utiliza algoritmos de agrupamiento para subdividir sus conjuntos de datos en grupos de puntos de datos que son más similares para un atributo predefinido. Si tiene un conjunto de datos que describe múltiples atributos sobre una característica en particular y desea agrupar sus puntos de datos según sus similitudes de atributos, entonces use algoritmos de agrupamiento.
Un simple diagrama de dispersión de los conjuntos de datos de Ingreso y educación del país arroja el gráfico que se ve aquí.
En la agrupación no supervisada, comienza con estos datos y luego procede a dividirlos en subconjuntos. Estos subconjuntos se denominan clusters y están compuestos por puntos de datos que son más similares entre sí. Parece que hay al menos dos grupos, probablemente tres, uno en la parte inferior con bajos ingresos y educación, y luego los países de educación superior parecen divididos entre ingresos bajos y altos.
La siguiente figura muestra el resultado de eyeballing - haciendo una estimación visual de - clusters en este conjunto de datos.
Aunque puede generar estimaciones visuales de clustering, puede lograr resultados mucho más precisos cuando maneja conjuntos de datos mucho más grandes mediante el uso de algoritmos para generar clústeres por usted. La estimación visual es un método aproximado que solo es útil en conjuntos de datos más pequeños y de complejidad mínima. Algoritmos: produce resultados exactos y repetibles, y puede usar algoritmos para generar clusters para múltiples dimensiones de datos dentro de su conjunto de datos.
Los algoritmos de agrupamiento son un tipo de enfoque en el aprendizaje automático no supervisado; otros enfoques incluyen métodos y métodos de Markov para la reducción de dimensiones. Los algoritmos de agrupamiento son apropiados en situaciones donde las siguientes características son verdaderas:
-
Usted conoce y comprende el conjunto de datos que está analizando.
-
Antes de ejecutar el algoritmo de agrupación, no tiene una idea exacta sobre la naturaleza de los subconjuntos (clústeres). A menudo, ni siquiera sabrá cuántos subconjuntos hay en el conjunto de datos antes de ejecutar el algoritmo.
-
Los subconjuntos (clústeres) están determinados solo por el conjunto de datos que está analizando.
-
Su objetivo es determinar un modelo que describa los subconjuntos en un solo conjunto de datos y solo este conjunto de datos.
Si agrega más datos, debe volver a ejecutar el análisis desde cero para obtener resultados del modelo completos y precisos.