Valores faltantes en sus datos: variables ficticias

Video: Razones Trigonométricas | Hallar un lado | Ejemplo 1 2025

Uno de los problemas de datos más frecuentes y desordenados es la falta de datos. Los archivos pueden estar incompletos porque se eliminaron los registros o se llenó un dispositivo de almacenamiento. O ciertos campos de datos pueden no contener datos para algunos registros. El primero de estos problemas se puede diagnosticar simplemente verificando el recuento de registros para los archivos. El segundo problema es más difícil de tratar.

Para ponerlo en términos simples, cuando encuentre un campo que contenga valores perdidos, tiene dos opciones:

Ignorarlo.
Stick algo en el campo.

Ignorando el problema

En algunos casos, simplemente puede encontrar un solo campo con una gran cantidad de valores perdidos. Si es así, lo más fácil es ignorar el campo. No lo incluyas en tu análisis.

Otra forma de ignorar el problema es ignorar el registro. Simplemente elimine el registro que contiene los datos faltantes. Esto puede tener sentido si solo hay unos pocos registros deshonestos. Pero si hay múltiples campos de datos que contienen números significativos de valores perdidos, este enfoque puede reducir su recuento de registros a un nivel inaceptable.

Otra cosa a tener en cuenta antes de simplemente eliminar registros es cualquier señal de un patrón. Por ejemplo, suponga que está analizando un conjunto de datos relacionados con saldos de tarjetas de crédito en todo el país. Es posible que encuentre un montón de registros que muestran $ 0. 00 saldos (tal vez alrededor de la mitad de los registros). Esto no es en sí mismo una indicación de datos faltantes. Sin embargo, si todos los registros de, digamos, California muestran $ 0. 00 saldos, que indica un posible problema de valores faltantes. Y no es uno que se resuelva de manera útil eliminando todos los registros del estado más grande del país. En este caso, probablemente sea un problema de sistemas e indique que se debe crear un archivo nuevo.

En general, eliminar registros es una solución fácil, pero no ideal, para los problemas de valores perdidos. Si el problema es relativamente pequeño y no existe un patrón discernible para las omisiones, entonces puede estar bien descartar los registros ofensivos y seguir adelante. Pero a menudo se justifica un enfoque más intelectual.

Rellenar los datos faltantes

Completar los datos faltantes equivale a hacer una conjetura sobre lo que habría sido en ese campo. Hay formas buenas y malas de hacer esto. Un enfoque simple (pero malo) es reemplazar los valores perdidos por el promedio de los que no faltan. En campos no numéricos, es posible que tenga la tentación de completar los registros que faltan con el valor más común en los otros registros (el modo).

Desafortunadamente, estos enfoques todavía se utilizan con frecuencia en algunas aplicaciones comerciales.Pero son ampliamente considerados por los estadísticos como malas ideas. Por un lado, el objetivo de hacer un análisis estadístico es encontrar datos que diferencien un resultado de otro. Al reemplazar todos los registros faltantes con el mismo valor, no ha diferenciado nada.

El enfoque más inteligente es tratar de encontrar una manera de predecir de manera significativa qué valor debe ser llenado en cada registro que le falta un valor. Esto implica mirar los registros completos e intentar encontrar pistas sobre cuál podría ser el valor perdido.

Supongamos que está analizando un archivo demográfico para predecir posibles compradores de uno de sus productos. En ese archivo tiene, entre otros campos, información sobre el estado civil, el número de hijos y el número de automóviles. Por alguna razón, falta el número de autos en un tercio de los registros.

Al analizar los otros dos campos (estado civil y número de hijos), es posible que descubra algunos patrones. Las personas solteras tienden a tener un auto. Las personas casadas sin hijos tienden a tener dos autos. Las personas casadas con más de un hijo podrían tener más probabilidades de tener tres autos. De esta forma, puede adivinar los valores perdidos de una manera que realmente diferencie los registros. Más sobre este enfoque por venir.

Hay un término general en estadísticas y procesamiento de datos que se refiere a datos cuestionables. El término ruidoso se usa para describir datos que no son confiables, están corruptos o son menos que prístinos. La falta de datos es solo un ejemplo de esto. Una descripción detallada de las técnicas para limpiar datos ruidosos en general está más allá del alcance de este libro. De hecho, este es un área activa de investigación en teoría estadística. El hecho de que todo el ruido no sea tan fácil de detectar como los valores perdidos hace que sea problemático lidiar con él.