Cómo generar datos derivados y reducir su dimensionalidad para análisis predictivo - dummies

Video: Conversiones de unidades físicas mejor método || Física Universitaria 2025

En esta fase de exploración del análisis predictivo, obtendrá un conocimiento profundo de sus datos, lo que a su vez lo ayudará a elegir las variables relevantes para analizar. Esta comprensión también lo ayudará a evaluar los resultados de su modelo. Pero primero debe identificar y limpiar los datos para el análisis.

Cómo generar datos derivados

Los atributos derivados son registros completamente nuevos construidos a partir de uno o más atributos existentes. Un ejemplo sería la creación de registros que identifiquen libros que sean best-sellers en ferias del libro. Los datos brutos pueden no capturar dichos registros, pero a efectos de modelado, esos registros derivados pueden ser importantes. La relación precio por ganancias y la media móvil de 200 días son dos ejemplos de datos derivados que se usan mucho en aplicaciones financieras.

Los atributos derivados se pueden obtener a partir de un cálculo simple, como deducir la edad a partir de la fecha de nacimiento. Los atributos derivados también se pueden calcular al resumir información de múltiples registros.

Por ejemplo, convertir una tabla de clientes y sus libros comprados en una tabla puede permitirle rastrear la cantidad de libros vendidos a través de un sistema de recomendación, a través de marketing dirigido y en una feria del libro, e identificar la demografía de los clientes que compró esos libros.

La generación de tales atributos adicionales aporta un poder predictivo adicional al análisis. De hecho, muchos de estos atributos se crean para sondear su potencial de predicción. Algunos modelos predictivos pueden usar más atributos derivados que los atributos en su estado bruto. Si algunos atributos derivados demuestran ser especialmente predictivos y se prueba que su poder es relevante, entonces tiene sentido automatizar el proceso que los genera.

Los registros derivados son registros nuevos que aportan nueva información y proporcionan nuevas formas de presentar datos sin procesar; pueden ser de gran valor para el modelado predictivo.

Cómo reducir la dimensionalidad de sus datos

Los datos utilizados en los modelos predictivos generalmente se agrupan a partir de múltiples fuentes. Su análisis puede extraer datos dispersos a través de múltiples formatos de datos, archivos y bases de datos, o múltiples tablas dentro de la misma base de datos. Combinar los datos y combinarlos en un formato integrado para que los modeladores de datos los usen es esencial.

Si sus datos contienen algún contenido jerárquico, es posible que deba ser aplanado . Algunos datos tienen algunas características jerárquicas, como las relaciones entre padres e hijos, o un registro que se compone de otros registros.Por ejemplo, un producto como un automóvil puede tener múltiples fabricantes; acoplar datos, en este caso, significa incluir a cada fabricante como una característica adicional del registro que está analizando.

El acoplamiento de datos es esencial cuando se fusionó a partir de múltiples registros relacionados para formar una mejor imagen.

Por ejemplo, analizar los eventos adversos de varios medicamentos fabricados por varias compañías puede requerir que los datos se aplasten a nivel de sustancia. Al hacerlo, terminas eliminando las relaciones uno a muchos (en este caso, muchos fabricantes y muchas sustancias para un producto) que pueden causar demasiada duplicación de datos al repetir varias entradas de sustancias que se repiten información del producto y del fabricante en cada entrada.

El aplanamiento reduce la <1099> dimensionalidad de los datos, que se representa por el número de características que tiene un registro o una observación. Por ejemplo, un cliente puede tener las siguientes características: nombre, edad, dirección, artículos comprados. Cuando comienza su análisis, puede encontrarse evaluando registros con muchas características, algunas de las cuales son importantes para el análisis. Por lo tanto, debe eliminar todas las funciones, salvo las muy pocas, que tengan la mayor capacidad de predicción para su proyecto específico.

Se puede reducir la dimensionalidad de los datos al poner todos los datos en una sola tabla que usa múltiples columnas para representar atributos de interés. Al comienzo del análisis, por supuesto, el análisis tiene que evaluar un gran número de columnas, pero ese número puede reducirse a medida que avanza el análisis.

Este proceso puede ser ayudado mediante la reconstitución de los campos, por ejemplo, agrupando los datos en categorías que tienen características similares.

El conjunto de datos resultante (el conjunto de datos limpio) generalmente se coloca en una base de datos separada para que lo usen los analistas. Durante el proceso de modelado, debe accederse fácilmente a estos datos, administrarse y mantenerse actualizados.