Tabla de contenido:
- Cómo usar las visualizaciones tabulares para el análisis predictivo
- Uso de gráficos de barras en el análisis predictivo
- Fundamentos de los gráficos circulares para el análisis predictivo
- Cómo usar gráficas de gráficos para el análisis predictivo
- Conceptos básicos de nubes de palabras para análisis predictivo
- Cómo utilizar la representación de aves en bandada para el análisis predictivo
Video: Introducción a Data Science Experience (DSX) 2024
Una imagen vale más que mil palabras, especialmente cuando intenta obtener un buen manejo de sus datos de análisis predictivo. En el paso de procesamiento previo, mientras prepara sus datos, es una práctica común visualizar lo que tiene a mano antes de continuar con el siguiente paso.
Empieza utilizando una hoja de cálculo como Microsoft Excel para crear una matriz de datos, que consiste en datos candidatos características (también conocidos como atributos ). Varios paquetes de software de inteligencia empresarial (como Tableau) pueden proporcionarle una descripción preliminar de los datos a los que está a punto de aplicar los análisis.
Cómo usar las visualizaciones tabulares para el análisis predictivo
Las tablas son la representación pictórica más sencilla y básica de los datos. Las tablas (también conocidas como hojas de cálculo ) consisten en filas y columnas, que corresponden, respectivamente, a los objetos y sus atributos mencionados anteriormente como la creación de sus datos. Por ejemplo, considere los datos de redes sociales en línea. Un objeto de datos podría representar a un usuario. Los atributos de un usuario (objeto de datos) pueden ser los encabezados de las columnas: género, código postal o fecha de nacimiento.
Las celdas en una tabla representan valores. La visualización en tablas puede ayudarlo a detectar fácilmente los valores de atributo perdidos de los objetos de datos.
Las tablas también pueden proporcionar la flexibilidad de agregar nuevos atributos que son combinaciones de otros atributos. Por ejemplo, en los datos de las redes sociales, puede agregar otra columna llamada Edad, que se puede calcular fácilmente como un atributo derivado del atributo Fecha de nacimiento existente. Los datos de la red social tabular muestran una nueva columna, Edad, creada a partir de otra columna existente (Fecha de nacimiento).
Uso de gráficos de barras en el análisis predictivo
Los gráficos de barras se pueden usar para detectar picos o anomalías en sus datos. Puede usarlo para cada atributo para representar rápidamente los valores mínimos y máximos. Los gráficos de barras también se pueden usar para iniciar una discusión sobre cómo normalizar sus datos.
La normalización es el ajuste de algunos o todos los valores de atributos en una escala que hace que los datos sean más utilizables. Por ejemplo, puede ver fácilmente que hay un error en los datos: la barra Age en un registro es negativa. Esa anomalía se representa más fácilmente por un gráfico de barras que por una tabla de datos.
Fundamentos de los gráficos circulares para el análisis predictivo
Los gráficos circulares se usan principalmente para mostrar los porcentajes. Pueden ilustrar fácilmente la distribución de varios elementos y resaltar los más dominantes. Los datos brutos de la red social se representan de acuerdo con el atributo Edad.Observe que el gráfico muestra no solo una distribución clara de hombres frente a mujeres, sino también un error probable: R como un valor para el tipo de género posiblemente creado cuando se recopilaron los datos.
Cómo usar gráficas de gráficos para el análisis predictivo
La teoría de gráficas proporciona un conjunto de algoritmos potentes que pueden analizar datos estructurados y representados como un gráfico. En informática, un gráfico es una estructura de datos, una forma de organizar datos que representa las relaciones entre pares de objetos de datos. Un gráfico consta de dos partes principales:
-
Vértices, también conocidos como nodos
-
Bordes, que conectan pares de nodos
Los bordes se pueden dirigir (dibujar como flechas) y pueden tener pesos. Puede decidir colocar un borde (flecha) entre dos nodos (círculos); en este caso, los miembros de la red social que están conectados a otros miembros como amigos:
La dirección de la flecha indica quiénes son los "amigos" que primero, o quien inicia interacciones la mayor parte del tiempo.
Conceptos básicos de nubes de palabras para análisis predictivo
Considere una lista de palabras o conceptos organizados como nube de palabras - una representación gráfica de todas las palabras en la lista, mostrando el tamaño de cada palabra como proporcional a una métrica que especifique. Por ejemplo, si tiene una hoja de cálculo de palabras y ocurrencias y desea identificar las palabras más importantes, intente con una nube de palabras.
Las nubes de palabras funcionan porque la mayoría de los datos de las organizaciones son texto; un ejemplo común es el uso de términos trending por parte de Twitter. Cada término en esta representación tiene un peso que afecta su tamaño como indicador de su importancia relativa.
Una forma de definir ese peso podría ser la cantidad de veces que aparezca una palabra en su colección de datos. Cuanto más frecuentemente aparece una palabra, más "pesado" es su peso, y cuanto más grande aparece en la nube.
Cómo utilizar la representación de aves en bandada para el análisis predictivo
El comportamiento de bandadas naturales en general es un sistema autoorganizado en el que los objetos (en particular, los seres vivos) tienden a comportarse de acuerdo con (a) el entorno al que pertenecen y (b) sus respuestas a otros objetos existentes. El comportamiento de congregación de sociedades naturales como las abejas, las moscas, las aves, los peces y las hormigas (o, para el caso, las personas) también se conoce como inteligencia de enjambre .
Las aves siguen reglas naturales cuando se comportan como una bandada. Compañeros de bandada son aves localizadas a cierta distancia una de la otra; esas aves se consideran similares. Cada pájaro se mueve de acuerdo con las tres reglas principales que organizan el comportamiento de flocado.
-
Separación: Los compañeros de bandada no deben colisionar entre ellos.
-
Alineación: Compañeros de bandada para moverse en la misma dirección promedio que sus vecinos.
-
Cohesión: Los compañeros de bandada se mueven de acuerdo con la posición o ubicación promedio de sus compañeros de bandada.
Modelar esas tres reglas puede permitir que un sistema analítico simule comportamientos de flocado. Utilizando el comportamiento natural autoorganizado de las aves en bandada, puede convertir una hoja de cálculo sencilla en una visualización.La clave es definir la noción de similitud como parte de sus datos. Comience con un par de preguntas:
-
¿Qué hace que dos objetos de datos en sus datos sean similares?
-
¿Qué atributos pueden conducir mejor a la similitud entre dos registros de datos?
Por ejemplo, en los datos de redes sociales, los registros de datos representan usuarios individuales; los atributos que los describen pueden incluir edad, código postal, estado de relación, lista de amigos, número de amigos, hábitos, eventos