Video: Como extraer una muestra aleatoria con el M.A.S 2025
Los estadísticos a menudo tienen que tomar muestras de datos y luego calcular estadísticas. Tomar una muestra es fácil con R porque una muestra no es más que un subconjunto de datos. Para hacerlo, utiliza sample (), que toma un vector como entrada; Luego, dígale cuántas muestras extraer de esa lista.
Digamos que quería simular rollos de un dado, y quiere obtener diez resultados. Debido a que el resultado de un solo lanzamiento de un dado es un número entre uno y seis, su código se ve así:
Usted le dice a sample () que devuelva diez valores, cada uno en el rango 1: 6. Debido a que cada rollo del dado es independiente de cada otro rollo del dado, está tomando muestras con reemplazo. Esto significa que toma una muestra de la lista y restablece la lista a su estado original (en otras palabras, coloca el elemento que acaba de dibujar de nuevo en la lista).
Debido a que el valor de retorno de la función sample () es un número determinado aleatoriamente, si prueba esta función repetidamente, obtendrá resultados diferentes cada vez. Este es el comportamiento correcto en la mayoría de los casos, pero a veces es posible que desee obtener resultados repetibles cada vez que ejecute la función.
Generalmente, esto ocurrirá solo cuando desarrolle y pruebe su código, o si quiere estar seguro de que alguien más puede probar su código y obtener los mismos valores que usted. En este caso, es habitual especificar un valor de inicialización denominado
.
Pero si no establece la semilla, R dibuja desde el estado actual del generador de números aleatorios (RNG). Al inicio, R puede establecer una semilla aleatoria para inicializar el RNG, pero cada vez que lo llame, R comienza desde el siguiente valor en la secuencia RNG. Puedes leer la Ayuda para? RNG para obtener más detalles.
En R, usa el conjunto. función seed () para especificar el valor inicial de su semilla. El argumento para establecer seed () es cualquier valor entero. >> establecido. seed (1)> sample (1: 6, 10, replace = TRUE) [1] 2 3 4 6 2 6 6 4 4 1
Si dibuja otra muestra, sin establecer una semilla, obtendrá un conjunto diferente de resultados, como era de esperar: >> muestra (1: 6, 10, reemplazar = VERDADERO) [1] 2 2 5 3 5 3 5 6 3 5
Ahora, para demostrar ese conjunto.seed () realmente restablece el RNG, pruébalo nuevamente. Pero esta vez, establecer la semilla una vez más: >> establecer. seed (1)> sample (1: 6, 10, replace = TRUE) [1] 2 3 4 6 2 6 6 4 4 1
Obtiene exactamente los mismos resultados que la primera vez que utilizó el set. semilla (1).
Puede usar sample () para tomar muestras del iris del marco de datos. En este caso, es posible que desee utilizar el argumento replace = FALSE. Como este es el valor predeterminado del argumento de reemplazo, no necesita escribirlo explícitamente: >> establecer. semilla (123)> índice índice [1] 44 119 62 133 142> iris [índice,] Sepal. Longitud Sepal. Ancho Pétalo. Longitud de pétalo. Ancho Especies 44 5. 0 3. 5 1. 6 0. 6 setosa 119 7. 7 2. 6 6. 9 2. 3 virginica 62 5. 9 3. 0 4. 2 1. 5 versicolor 133 6. 4 2. 8 5. 6 2. 2 virginica 142 6. 9 3. 1 5. 1 2. 3 virginica
