Tabla de contenido:
- Ya has visto cómo usar stat_bin () para resumir tus datos en contenedores, porque esta es la estadística predeterminada de geom_bar (). Esto significa que las siguientes dos líneas de código producen gráficas idénticas: >> ggplot (terremotos, aes (x = profundidad)) + geom_bar (binwidth = 50)> ggplot (terremotos, aes (x = profundidad)) + stat_bin (binwid th = 50)
- Lo interesante de stat_smooth () es que hace uso de la regresión local de forma predeterminada. R tiene varias funciones que pueden hacer esto, pero ggplot2 usa la función loess () para la regresión local. Esto significa que si desea crear un modelo de regresión lineal, debe decirle a stat_smooth () que use una función suavizante diferente.Usted hace esto con el argumento del método.
Video: 9.4 Diagramas de caja 2025
Después de los datos, el mapeo y los geoms, el cuarto elemento de una capa ggplot2 en R describe cómo se deben resumir los datos. En ggplot2, se refiere a este resumen estadístico como una estadística .
Una característica muy conveniente de ggplot2 es su rango de funciones para resumir sus datos en la trama. Esto significa que a menudo no tiene que resumir previamente sus datos. Por ejemplo, la altura de las barras en un histograma indica cuántas observaciones de algo tienes en tus datos. El resumen estadístico para esto es contar las observaciones. Los estadísticos se refieren a este proceso como binning, y la estadística predeterminada para geom_bar () es stat_bin ().
Análogamente a la forma en que cada geom tiene una estadística predeterminada asociada, cada estadística también tiene un geom predeterminado.
Entonces, esto plantea la pregunta: ¿cómo decides si usar un geom o una estadística? En teoría, no importa si primero eliges el geom o el stat. En la práctica, sin embargo, a menudo es intuitivo comenzar primero con un tipo de trama; en otras palabras, especificar un geom. Si luego quieres agregar otra capa de resumen estadístico, usa una estadística.
En este gráfico, utilizó los mismos datos para crear primero un diagrama de dispersión con geom_point (), y luego agregó una línea suave con stat_smooth ().
Aquí algunos ejemplos prácticos del uso de funciones estadísticas.
Stat | Descripción | Valor predeterminado Geom |
---|---|---|
stat_bin () | Cuenta el número de observaciones en contenedores. | geom_bar () |
stat_smooth () | Crea una línea suave. | geom_line () |
stat_sum () | Agrega valores. | geom_point () |
stat_identity () | Sin resumen. Traza los datos como están. | geom_point () |
stat_boxplot () | Resume datos para un diagrama de caja y patillas. | geom_boxplot () |
Ya has visto cómo usar stat_bin () para resumir tus datos en contenedores, porque esta es la estadística predeterminada de geom_bar (). Esto significa que las siguientes dos líneas de código producen gráficas idénticas: >> ggplot (terremotos, aes (x = profundidad)) + geom_bar (binwidth = 50)> ggplot (terremotos, aes (x = profundidad)) + stat_bin (binwid th = 50)
Datos de suavizado
El paquete ggplot2 también hace que sea muy fácil crear líneas de regresión a través de sus datos. Utiliza la función stat_smooth () para crear este tipo de línea.
Lo interesante de stat_smooth () es que hace uso de la regresión local de forma predeterminada. R tiene varias funciones que pueden hacer esto, pero ggplot2 usa la función loess () para la regresión local. Esto significa que si desea crear un modelo de regresión lineal, debe decirle a stat_smooth () que use una función suavizante diferente.Usted hace esto con el argumento del método.
Para ilustrar el uso de un suavizador, comience por crear un diagrama de dispersión del desempleo en el conjunto de datos longley: >> p p
A continuación, agregue un suavizador. Esto es tan simple como agregar stat_smooth () a su línea de código. >> p + stat_smooth ()
Su gráfico debe verse como el diagrama a la izquierda de la imagen a continuación.
A veces, ggplot2 genera mensajes con consejos e información adicionales. Siempre que no vea advertencia o error, puede ignorar estos mensajes de forma segura. En este caso, stat_smooth () le dice que el suavizador predeterminado es un método llamado
loess
(suavizado local). El mensaje también dice que puede usar métodos alternativos de suavizado.
Finalmente, use stat_smooth () para ajustar y trazar un modelo de regresión lineal. Para ello, agregue el método de argumento = "lm": >> p + stat_smooth (method = "lm")
Su gráfico debe verse ahora como el gráfico de la derecha. stat_smooth (). "Width =" 535 "> Agregar líneas de regresión con stat_smooth ().
No hacer nada con la identidad
A veces no quiere que ggplot2 resuma sus datos en la trama. Esto generalmente ocurre cuando sus datos son ya pre-resumido o cuando cada línea de su marco de datos tiene que trazarse por separado. En estos casos, quiere decirle a ggplot2 que no haga nada en absoluto, y la estadística para hacer esto es stat_identity (). Probablemente haya notado que stat_identity es la estadística predeterminada para puntos y líneas.
