Hogar Finanzas personales Cómo generar datos derivados y reducir su dimensionalidad para análisis predictivo - dummies

Cómo generar datos derivados y reducir su dimensionalidad para análisis predictivo - dummies

Tabla de contenido:

Video: Conversiones de unidades físicas mejor método || Física Universitaria 2025

Video: Conversiones de unidades físicas mejor método || Física Universitaria 2025
Anonim

En esta fase de exploración del análisis predictivo, obtendrá un conocimiento profundo de sus datos, lo que a su vez lo ayudará a elegir las variables relevantes para analizar. Esta comprensión también lo ayudará a evaluar los resultados de su modelo. Pero primero debe identificar y limpiar los datos para el análisis.

Cómo generar datos derivados

Los atributos derivados son registros completamente nuevos construidos a partir de uno o más atributos existentes. Un ejemplo sería la creación de registros que identifiquen libros que sean best-sellers en ferias del libro. Los datos brutos pueden no capturar dichos registros, pero a efectos de modelado, esos registros derivados pueden ser importantes. La relación precio por ganancias y la media móvil de 200 días son dos ejemplos de datos derivados que se usan mucho en aplicaciones financieras.

Los atributos derivados se pueden obtener a partir de un cálculo simple, como deducir la edad a partir de la fecha de nacimiento. Los atributos derivados también se pueden calcular al resumir información de múltiples registros.

Por ejemplo, convertir una tabla de clientes y sus libros comprados en una tabla puede permitirle rastrear la cantidad de libros vendidos a través de un sistema de recomendación, a través de marketing dirigido y en una feria del libro, e identificar la demografía de los clientes que compró esos libros.

La generación de tales atributos adicionales aporta un poder predictivo adicional al análisis. De hecho, muchos de estos atributos se crean para sondear su potencial de predicción. Algunos modelos predictivos pueden usar más atributos derivados que los atributos en su estado bruto. Si algunos atributos derivados demuestran ser especialmente predictivos y se prueba que su poder es relevante, entonces tiene sentido automatizar el proceso que los genera.

Los registros derivados son registros nuevos que aportan nueva información y proporcionan nuevas formas de presentar datos sin procesar; pueden ser de gran valor para el modelado predictivo.

Cómo reducir la dimensionalidad de sus datos

Los datos utilizados en los modelos predictivos generalmente se agrupan a partir de múltiples fuentes. Su análisis puede extraer datos dispersos a través de múltiples formatos de datos, archivos y bases de datos, o múltiples tablas dentro de la misma base de datos. Combinar los datos y combinarlos en un formato integrado para que los modeladores de datos los usen es esencial.

Si sus datos contienen algún contenido jerárquico, es posible que deba ser aplanado . Algunos datos tienen algunas características jerárquicas, como las relaciones entre padres e hijos, o un registro que se compone de otros registros.Por ejemplo, un producto como un automóvil puede tener múltiples fabricantes; acoplar datos, en este caso, significa incluir a cada fabricante como una característica adicional del registro que está analizando.

El acoplamiento de datos es esencial cuando se fusionó a partir de múltiples registros relacionados para formar una mejor imagen.

Por ejemplo, analizar los eventos adversos de varios medicamentos fabricados por varias compañías puede requerir que los datos se aplasten a nivel de sustancia. Al hacerlo, terminas eliminando las relaciones uno a muchos (en este caso, muchos fabricantes y muchas sustancias para un producto) que pueden causar demasiada duplicación de datos al repetir varias entradas de sustancias que se repiten información del producto y del fabricante en cada entrada.

El aplanamiento reduce la <1099> dimensionalidad de los datos, que se representa por el número de características que tiene un registro o una observación. Por ejemplo, un cliente puede tener las siguientes características: nombre, edad, dirección, artículos comprados. Cuando comienza su análisis, puede encontrarse evaluando registros con muchas características, algunas de las cuales son importantes para el análisis. Por lo tanto, debe eliminar todas las funciones, salvo las muy pocas, que tengan la mayor capacidad de predicción para su proyecto específico.

Se puede reducir la dimensionalidad de los datos al poner todos los datos en una sola tabla que usa múltiples columnas para representar atributos de interés. Al comienzo del análisis, por supuesto, el análisis tiene que evaluar un gran número de columnas, pero ese número puede reducirse a medida que avanza el análisis.

Este proceso puede ser ayudado mediante la reconstitución de los campos, por ejemplo, agrupando los datos en categorías que tienen características similares.

El conjunto de datos resultante (el conjunto de datos limpio) generalmente se coloca en una base de datos separada para que lo usen los analistas. Durante el proceso de modelado, debe accederse fácilmente a estos datos, administrarse y mantenerse actualizados.

Cómo generar datos derivados y reducir su dimensionalidad para análisis predictivo - dummies

Selección del editor

Filmmaking digital: ¿Qué necesitas para ejecutar Premiere Elements? - Dummies

Filmmaking digital: ¿Qué necesitas para ejecutar Premiere Elements? - Dummies

¿Estás pensando en usar Premiere Elements para editar tu película DSLR? Con soporte de 64 bits y funciones avanzadas, Premiere Elements funciona mejor en una computadora relativamente nueva. Esto es lo que necesita: Premiere Elements para Windows Si está ejecutando Premiere Elements en una PC, esto es lo que necesitará: procesador de 2 GHz o más rápido con soporte SSE2; dual-core ...

DSLR Filmmaking Support Devices - Dummies

DSLR Filmmaking Support Devices - Dummies

Aunque las películas pueden usar técnicas más pequeñas para mover la cámara DSLR a través de una escena, dispositivos de soporte a veces se usan. Se realizan una gran cantidad de disparos utilizando aparatos más sofisticados, como una plataforma móvil o una grúa. Camera Dolly Esta plataforma de cámara rodante se utiliza en producción de películas y televisión para crear movimientos suaves a través del ...

Lentes de cámara dSLR para cine - muñecos

Lentes de cámara dSLR para cine - muñecos

En el mundo cinematográfico, los objetivos de cámara para su DSLR son muy importantes. Así que elige tu lente sabiamente. Sin una buena lente, no tienes más que un pisapapeles realmente genial, aunque caro. Si bien es esencial, las lentes hacen más que capturar una imagen o controlar enfocando la escena; también son una herramienta importante para crear composición y control ...

Selección del editor

Crear imágenes de alto rango dinámico - dummies

Crear imágenes de alto rango dinámico - dummies

Una fotografía de alto rango dinámico (HDR) combina varias fotos en una, cada una con una exposición diferente (o en este caso, velocidad de obturación). El resultado es una foto que resalta todos los colores y gamas en algo que parece casi una obra de arte moderna, con colores y contrastes exagerados. Para lograr el efecto, ...

Cámaras digitales y tiras de droguería Hoja informativa para principiantes: maniquíes

Cámaras digitales y tiras de droguería Hoja informativa para principiantes: maniquíes

Es posible que ya tenga su primera cámara digital, o es posible que esté listo para obtener uno nuevo y esté buscando orientación sobre qué tipo de cámara digital comprar. O tal vez hayas tomado algunas fotos con tu nueva cámara digital, y los resultados fueron menos que estelares. Lo más probable es que ...

Funciones de la cámara digital para enfocar - tontos

Funciones de la cámara digital para enfocar - tontos

Fotógrafos digitales de todas las edades deben conocer las funciones de la cámara digital y sus funciones . Comprender las características de la cámara digital puede ayudarlo a elegir la cámara correcta cuando esté listo para comprar. Aquí hay algunas sugerencias y descripciones de las características de la cámara a considerar. Característica Explicación Recomendación Estilo del cuerpo Las cámaras compactas son muy pequeñas. Las cámaras Bridge o Prosumer son ...

Selección del editor

Cómo crear su propio servidor con XAMPP para programación HTML5 y CSS3 - Dummies

Cómo crear su propio servidor con XAMPP para programación HTML5 y CSS3 - Dummies

Es mucho más difícil configurar un servidor que funcione a mano que programarlo con HTML5 y CSS3. Las soluciones de alojamiento web a menudo pueden ser intimidantes. No se recomienda configurar su propio sistema a mano. Simplemente no vale la pena la frustración porque hay muy buenas opciones disponibles. XAMPP es un ...

Cómo administrar datos de forma remota para programación HTML5 y CSS3 - dummies

Cómo administrar datos de forma remota para programación HTML5 y CSS3 - dummies

HTML5 y CSS3 los sitios web a menudo trabajan con bases de datos. Su servicio de alojamiento puede tener características para trabajar con bases de datos MySQL de forma remota. Debe comprender cómo funciona este proceso porque a menudo es ligeramente diferente de trabajar con la base de datos en su máquina local. Cree su base de datos A menudo, una herramienta le permite elegir una base de datos definida o ...