Hogar Finanzas personales Cómo limpiar los datos para el análisis predictivo - dummies

Cómo limpiar los datos para el análisis predictivo - dummies

Video: ¿Querés predecir el futuro? Usá datos | Nicolás Loeff | TEDxMontevideo 2025

Video: ¿Querés predecir el futuro? Usá datos | Nicolás Loeff | TEDxMontevideo 2025
Anonim

Antes de ejecutar un análisis predictivo, deberá asegurarse de que los datos estén limpios de elementos extraños antes de poder utilizarlos en su modelo. Esto incluye buscar y corregir cualquier registro que contenga valores erróneos e intentar completar los valores faltantes. También deberá decidir si incluye registros duplicados (dos cuentas de clientes, por ejemplo).

El objetivo general es garantizar la integridad de la información que está utilizando para construir su modelo predictivo. Preste especial atención a la integridad, exactitud y puntualidad de los datos.

Es útil crear estadísticas descriptivas (características cuantitativas) para varios campos, como calcular min y max, verificar distribución de frecuencias (con qué frecuencia ocurre algo)) y verificar los rangos esperados. Ejecutar un control regular puede ayudarlo a marcar cualquier dato que esté fuera del rango esperado para una mayor investigación. Cualquier registro que muestre jubilados con fechas de nacimiento en la década de 1990 puede marcarse con este método.

Además, verificar la información es importante para asegurarse de que los datos sean precisos. Para un análisis más profundo de las características de los datos y la identificación de la relación entre los registros de datos, puede utilizar perfiles de datos (análisis de disponibilidad de datos y recopilación de estadísticas sobre la calidad de los datos) y herramientas de visualización.

La falta de datos podría deberse al hecho de que no se registró información particular. En tal caso, puede intentar completar todo lo que pueda; los valores predeterminados adecuados se pueden agregar fácilmente para llenar los espacios en blanco de ciertos campos.

Por ejemplo, para pacientes en una sala de maternidad del hospital donde falta un valor en el campo de género, la aplicación simplemente puede completarlo como femenina. En ese caso, para cualquier hombre que ingresó en un hospital con un registro faltante del estado de embarazo, ese registro se puede completar de manera similar ya que no corresponde.

Se puede deducir un código postal que falta para una dirección del nombre de la calle y la ciudad que se proporciona en esa dirección.

En los casos donde la información es desconocida o no se puede inferir, entonces necesitaría usar valores otros que un espacio en blanco para indicar que faltan los datos sin afectar la exactitud del análisis. Un espacio en blanco en los datos puede significar muchas cosas, la mayoría de ellas no son buenas ni útiles. Siempre que pueda, debe especificar la naturaleza de ese espacio en blanco mediante relleno de lugar significativo.

Así como es posible definir una rosa en un maizal como una mala hierba, los valores atípicos pueden significar cosas diferentes para diferentes análisis.Es común que algunos modelos se construyan únicamente para rastrear esos valores atípicos y marcarlos.

Los modelos de detección de fraude y el monitoreo de actividades criminales están interesados ​​en esos valores atípicos, que en tales casos indican que se está produciendo algo no deseado. Por lo tanto, se recomienda mantener los valores atípicos en el conjunto de datos en casos como estos. Sin embargo, cuando los valores atípicos se consideran anomalías dentro de los datos y solo sesgan los análisis y dan lugar a resultados erróneos, elimínelos de sus datos.

La duplicación en los datos también puede ser útil o molesta; algo de esto puede ser necesario, puede indicar valor y puede reflejar un estado preciso de los datos. Por ejemplo, un registro de un cliente con múltiples cuentas se puede representar con múltiples entradas que (técnicamente, de todos modos) son duplicadas y repetitivas de los mismos registros.

De la misma manera, cuando los registros duplicados no aportan valor al análisis y no son necesarios, eliminarlos puede ser de gran valor. Esto es especialmente cierto para grandes conjuntos de datos donde la eliminación de registros duplicados puede simplificar la complejidad de los datos y reducir el tiempo necesario para el análisis.

Puede prevenir preventivamente que ingresen datos incorrectos en sus sistemas mediante la adopción de algunos procedimientos específicos:

  • Verificación de la calidad del instituto y validación de datos para todos los datos que se recopilan.

  • Permita que sus clientes validen y autocorrigen sus datos personales.

  • Proporcione a sus clientes valores posibles y esperados para elegir.

  • Ejecuta comprobaciones rutinarias sobre la integridad, la coherencia y la precisión de los datos.

Cómo limpiar los datos para el análisis predictivo - dummies

Selección del editor

Entrada de datos por exceso de velocidad con la función de Autocompletar de Excel 2007 - imitaciones

Entrada de datos por exceso de velocidad con la función de Autocompletar de Excel 2007 - imitaciones

Use la función Autocompletar en Microsoft Office Excel 2007 para crea rápidamente una serie de entradas basadas en los datos que ingresas en una o dos celdas. El auto relleno de Excel 2007 funciona con días de la semana, meses del año y trimestres anuales. Si desea usar Autocompletar para una serie de números, ingrese ...

Tablas inteligentes que se expanden con datos en modelos de datos de Excel: dummies

Tablas inteligentes que se expanden con datos en modelos de datos de Excel: dummies

Uno de los desafíos que puede El encuentro al construir modelos de datos en Excel es una tabla de datos que se expande con el tiempo. Es decir, la tabla crece en la cantidad de registros que posee debido a la adición de nuevos datos. Para obtener una comprensión básica de este desafío, eche un vistazo a lo siguiente ...

Dividir datos en múltiples columnas en Excel 2007 - dummies

Dividir datos en múltiples columnas en Excel 2007 - dummies

Usar el Asistente para Convertir texto en columnas en Excel 2007 cuando necesita dividir los datos combinados en columnas separadas, como un nombre y apellido; o ciudad, estado y código postal. Este tipo de datos combinados a menudo se produce cuando abre o importa archivos creados en otra aplicación.

Selección del editor

Cómo copiar el formato de Excel 2010 con el formato Painter - Dummies

Cómo copiar el formato de Excel 2010 con el formato Painter - Dummies

Use el botón Format Painter en el Inicio pestaña de Excel 2010 Ribbon para ahorrar tiempo al copiar el formato entre celdas en sus hojas de trabajo. También puede usar Copiar formato para copiar rápidamente el ancho de una columna a otra columna. Simplemente seleccione el encabezado de la primera columna, haga clic en el botón Copiar formato, ...

Cómo copiar estilos personalizados en Excel 2013 - dummies

Cómo copiar estilos personalizados en Excel 2013 - dummies

Excel 2013 hace que sea fácil copiar estilos de celda personalizados que ha guardado como parte de un libro de trabajo en el libro en el que está trabajando actualmente. Para copiar estilos personalizados de un libro de trabajo a otro, siga estos pasos:

Cómo copiar fórmulas de Excel con la manija de relleno - muñecos

Cómo copiar fórmulas de Excel con la manija de relleno - muñecos

Te encantará el identificador de relleno en Excel El controlador de relleno es una manera rápida de copiar el contenido de una celda a otras celdas con un solo clic y arrastrar. La celda activa siempre tiene una pequeña caja cuadrada en el lado inferior derecho de su borde. Esa es la manija de relleno. Cuando ...

Selección del editor

Cómo imprimir a escala desde Google SketchUp 8 - Dummies

Cómo imprimir a escala desde Google SketchUp 8 - Dummies

A veces, en lugar de imprimir exactamente lo que ver en su pantalla de Google SketchUp para que quepa en una hoja de papel, puede necesitar imprimir un dibujo a escala. Los pasos a continuación le muestran cómo producir una impresión a escala de SketchUp. Cuando los elementos de la interfaz de usuario son diferentes para las dos plataformas, el ...

Cómo quitar bordes antiestéticos de su modelo de SketchUp - dummies

Cómo quitar bordes antiestéticos de su modelo de SketchUp - dummies

Si se está preguntando cómo obtener Deshazte de todas las líneas feas que aparecen cuando usas Sígueme, la respuesta es bastante simple: puedes suavizar los bordes, al igual que puedes ocultarlos. La diferencia entre ocultar y suavizar se ilustra con las imágenes de los cilindros en la figura que sigue: Cuando ...

Cómo desglosar un sitio en SketchUp - dummies

Cómo desglosar un sitio en SketchUp - dummies

Quizás desee modelar un trozo pequeño de nonflat terreno que rodea un modelo de construcción en SketchUp. Tal vez estés tratando de reproducir las condiciones existentes del sitio, o tal vez estés en el proceso de diseñar el paisaje para un proyecto. Hay una técnica clara para casos como este: puede usar From Contours para hacer rápidamente ...