Video: Curso de CRM para empresarios y emprendedores. Clase N°2 EN ESPAÑOL 2024
Cuando hablamos de remodelar datos en R, es importante reconocer los datos en formatos largos y anchos. Estas metáforas visuales describen dos formas de representar la misma información. Es útil conocer estos formatos cuando se usa R.
Puede reconocer datos en formato ancho por el hecho de que las columnas generalmente representan grupos. Por lo tanto, nuestro ejemplo de juegos de baloncesto está en formato ancho, porque hay una columna para los cestos hecha por cada uno de los participantes:
Game Venue Granny Geraldine Gertrude 1 1st Bruges 12 5 11 2 2nd Ghent 4 4 5 3 3rd Ghent 5 2 6 4 4th Bruges 6 4 7
Por el contrario, eche un vistazo a la larga formato de exactamente los mismos datos:
Valor variable de la sala de juegos 1 1 Brujas Granny 12 2 2nd Ghent Granny 4 3 3rd Ghent Granny 5 4 4th Bruges Granny 6 5 1st Bruges Geraldine 5 6 2nd Ghent Geraldine 4 7 3rd Ghent Geraldine 2 8 4th Bruges Geraldine 4 9 1st Bruges Gertrude 11 10 2nd Ghent Gertrude 5 11 3rd Ghent Gertrude 6 12 4th Bruges Gertrude 7
Observe cómo, en el formato largo, las tres columnas para Granny, Geraldine y Gertrude han desaparecido. En su lugar, ahora tiene una columna llamada valor que contiene el puntaje real, y una columna llamada variable que vincula el puntaje a cualquiera de las tres damas.
Al convertir datos entre formatos largos y anchos, es importante poder distinguir las variables de identificación de las variables medidas:
-
Variables de identificación: Las variables Identificador o ID identifican las observaciones. Piense en esto como la clave que identifica sus observaciones. (En el diseño de la base de datos, estas se denominan claves primarias o secundarias).
-
Variables medidas: Esto representa las medidas que observó.
En nuestro ejemplo, las variables de identificación son Juego y Lugar, mientras que las variables medidas son los objetivos (es decir, las columnas Granny, Geraldine y Gertrude).