Hogar Finanzas personales Cómo convertir datos brutos en una matriz de análisis predictivo: simulaciones

Cómo convertir datos brutos en una matriz de análisis predictivo: simulaciones

Tabla de contenido:

Video: puntuaciones crudas a escalares 2025

Video: puntuaciones crudas a escalares 2025
Anonim

Antes de que pueda extraer grupos de elementos de datos similares de su conjunto de datos para su proyecto de análisis predictivo, es posible que necesite representar sus datos en una tabla formato conocido como matriz de datos . Este es un paso de preproceso que se produce antes de la agrupación de datos.

Cómo crear una matriz de análisis predictivo de términos en documentos

Supongamos que el conjunto de datos que está a punto de analizar está contenido en un conjunto de documentos de Microsoft Word. Lo primero que debe hacer es convertir el conjunto de documentos en una matriz de datos. Varias herramientas comerciales y de código abierto pueden manejar esa tarea, produciendo una matriz, en la que cada fila corresponde a un documento en el conjunto de datos. Entre los ejemplos de estas herramientas se incluyen RapidMiner y paquetes de minería de textos R.

Un documento es, en esencia, un conjunto de palabras. Un término es un conjunto de una o varias palabras.

Cada término que contiene un documento se menciona una o varias veces en el mismo documento. El número de veces que se menciona un término en un documento se puede representar por frecuencia de término (TF), un valor numérico.

Construimos la matriz de términos en el documento de la siguiente manera:

  • Los términos que aparecen en todos los documentos se enumeran en la fila superior.

  • Los títulos de los documentos se enumeran en la columna de la izquierda

  • Los números que aparecen dentro de las celdas de la matriz corresponden a la frecuencia de cada término.

Por ejemplo, el documento A se representa como un conjunto de números (5, 16, 0, 19, 0, 0) donde 5 corresponde al número de veces que se repite el término análisis predictivo , 16 corresponde al número de veces que se repite informática , y así sucesivamente. Esta es la forma más sencilla de convertir un conjunto de documentos en una matriz.

Análisis Predictivo Informática Aprendizaje Agrupación 2013 Antropología
Documento A 5 16 0 < 19 0 0 Documento B
8 6 2 3 0 0 Documento C
0 < 5 2 3 3 9 Documento D 1
9 13 4 6 7 > Documento E 2 16
16 0 2 13 Documento F 13 0
19 16 > 4 2 Fundamentos de la selección de términos de análisis predictivo Un reto en la agrupación de documentos de texto es determinar cómo seleccionar los mejores términos para representar todos los documentos en la colección. La importancia de un término en una colección de documentos puede calcularse de diferentes maneras. Si, por ejemplo, se cuenta el número de veces que se repite un término en un documento y se compara ese total con la frecuencia con que se repite en toda la colección, se tiene una idea de la importancia del término en relación con otros términos. Basar la importancia relativa de un término en su frecuencia en una colección a menudo se conoce como

ponderación

. El peso que asigna puede basarse en dos principios:

Los términos que aparecen varias veces en un documento son preferibles a los términos que aparecen solo una vez.

Los términos que se utilizan en relativamente pocos documentos son preferibles a los términos que se mencionan en todos los documentos. Si (por ejemplo) el término siglo

  • se menciona en todos los documentos en su conjunto de datos, entonces puede que no considere asignarle suficiente peso para tener una columna propia en la matriz.

  • Del mismo modo, si está tratando con un conjunto de datos de usuarios de una red social en línea, puede convertir fácilmente ese conjunto de datos en una matriz. Los nombres de usuario o nombres ocuparán las filas; las columnas enumerarán las características que mejor describan a esos usuarios.

Cómo convertir datos brutos en una matriz de análisis predictivo: simulaciones

Selección del editor

Entrada de datos por exceso de velocidad con la función de Autocompletar de Excel 2007 - imitaciones

Entrada de datos por exceso de velocidad con la función de Autocompletar de Excel 2007 - imitaciones

Use la función Autocompletar en Microsoft Office Excel 2007 para crea rápidamente una serie de entradas basadas en los datos que ingresas en una o dos celdas. El auto relleno de Excel 2007 funciona con días de la semana, meses del año y trimestres anuales. Si desea usar Autocompletar para una serie de números, ingrese ...

Tablas inteligentes que se expanden con datos en modelos de datos de Excel: dummies

Tablas inteligentes que se expanden con datos en modelos de datos de Excel: dummies

Uno de los desafíos que puede El encuentro al construir modelos de datos en Excel es una tabla de datos que se expande con el tiempo. Es decir, la tabla crece en la cantidad de registros que posee debido a la adición de nuevos datos. Para obtener una comprensión básica de este desafío, eche un vistazo a lo siguiente ...

Dividir datos en múltiples columnas en Excel 2007 - dummies

Dividir datos en múltiples columnas en Excel 2007 - dummies

Usar el Asistente para Convertir texto en columnas en Excel 2007 cuando necesita dividir los datos combinados en columnas separadas, como un nombre y apellido; o ciudad, estado y código postal. Este tipo de datos combinados a menudo se produce cuando abre o importa archivos creados en otra aplicación.

Selección del editor

Cómo copiar el formato de Excel 2010 con el formato Painter - Dummies

Cómo copiar el formato de Excel 2010 con el formato Painter - Dummies

Use el botón Format Painter en el Inicio pestaña de Excel 2010 Ribbon para ahorrar tiempo al copiar el formato entre celdas en sus hojas de trabajo. También puede usar Copiar formato para copiar rápidamente el ancho de una columna a otra columna. Simplemente seleccione el encabezado de la primera columna, haga clic en el botón Copiar formato, ...

Cómo copiar estilos personalizados en Excel 2013 - dummies

Cómo copiar estilos personalizados en Excel 2013 - dummies

Excel 2013 hace que sea fácil copiar estilos de celda personalizados que ha guardado como parte de un libro de trabajo en el libro en el que está trabajando actualmente. Para copiar estilos personalizados de un libro de trabajo a otro, siga estos pasos:

Cómo copiar fórmulas de Excel con la manija de relleno - muñecos

Cómo copiar fórmulas de Excel con la manija de relleno - muñecos

Te encantará el identificador de relleno en Excel El controlador de relleno es una manera rápida de copiar el contenido de una celda a otras celdas con un solo clic y arrastrar. La celda activa siempre tiene una pequeña caja cuadrada en el lado inferior derecho de su borde. Esa es la manija de relleno. Cuando ...

Selección del editor

Cómo imprimir a escala desde Google SketchUp 8 - Dummies

Cómo imprimir a escala desde Google SketchUp 8 - Dummies

A veces, en lugar de imprimir exactamente lo que ver en su pantalla de Google SketchUp para que quepa en una hoja de papel, puede necesitar imprimir un dibujo a escala. Los pasos a continuación le muestran cómo producir una impresión a escala de SketchUp. Cuando los elementos de la interfaz de usuario son diferentes para las dos plataformas, el ...

Cómo quitar bordes antiestéticos de su modelo de SketchUp - dummies

Cómo quitar bordes antiestéticos de su modelo de SketchUp - dummies

Si se está preguntando cómo obtener Deshazte de todas las líneas feas que aparecen cuando usas Sígueme, la respuesta es bastante simple: puedes suavizar los bordes, al igual que puedes ocultarlos. La diferencia entre ocultar y suavizar se ilustra con las imágenes de los cilindros en la figura que sigue: Cuando ...

Cómo desglosar un sitio en SketchUp - dummies

Cómo desglosar un sitio en SketchUp - dummies

Quizás desee modelar un trozo pequeño de nonflat terreno que rodea un modelo de construcción en SketchUp. Tal vez estés tratando de reproducir las condiciones existentes del sitio, o tal vez estés en el proceso de diseñar el paisaje para un proyecto. Hay una técnica clara para casos como este: puede usar From Contours para hacer rápidamente ...