Cómo convertir datos brutos en una matriz de análisis predictivo: simulaciones

Video: puntuaciones crudas a escalares 2025

Antes de que pueda extraer grupos de elementos de datos similares de su conjunto de datos para su proyecto de análisis predictivo, es posible que necesite representar sus datos en una tabla formato conocido como matriz de datos . Este es un paso de preproceso que se produce antes de la agrupación de datos.

Cómo crear una matriz de análisis predictivo de términos en documentos

Supongamos que el conjunto de datos que está a punto de analizar está contenido en un conjunto de documentos de Microsoft Word. Lo primero que debe hacer es convertir el conjunto de documentos en una matriz de datos. Varias herramientas comerciales y de código abierto pueden manejar esa tarea, produciendo una matriz, en la que cada fila corresponde a un documento en el conjunto de datos. Entre los ejemplos de estas herramientas se incluyen RapidMiner y paquetes de minería de textos R.

Un documento es, en esencia, un conjunto de palabras. Un término es un conjunto de una o varias palabras.

Cada término que contiene un documento se menciona una o varias veces en el mismo documento. El número de veces que se menciona un término en un documento se puede representar por frecuencia de término (TF), un valor numérico.

Construimos la matriz de términos en el documento de la siguiente manera:

Los términos que aparecen en todos los documentos se enumeran en la fila superior.
Los títulos de los documentos se enumeran en la columna de la izquierda
Los números que aparecen dentro de las celdas de la matriz corresponden a la frecuencia de cada término.

Por ejemplo, el documento A se representa como un conjunto de números (5, 16, 0, 19, 0, 0) donde 5 corresponde al número de veces que se repite el término análisis predictivo , 16 corresponde al número de veces que se repite informática , y así sucesivamente. Esta es la forma más sencilla de convertir un conjunto de documentos en una matriz.

Análisis Predictivo	Informática	Aprendizaje	Agrupación	2013	Antropología
Documento A	5	16	0 < 19	0	0	Documento B
8	6	2	3	0	0	Documento C
0 < 5	2	3	3	9	Documento D	1
9	13	4	6	7 > Documento E	2	16
16	0	2	13	Documento F	13	0
19	16 > 4	2	Fundamentos de la selección de términos de análisis predictivo	Un reto en la agrupación de documentos de texto es determinar cómo seleccionar los mejores términos para representar todos los documentos en la colección. La importancia de un término en una colección de documentos puede calcularse de diferentes maneras.	Si, por ejemplo, se cuenta el número de veces que se repite un término en un documento y se compara ese total con la frecuencia con que se repite en toda la colección, se tiene una idea de la importancia del término en relación con otros términos.	Basar la importancia relativa de un término en su frecuencia en una colección a menudo se conoce como

ponderación

. El peso que asigna puede basarse en dos principios:

Los términos que aparecen varias veces en un documento son preferibles a los términos que aparecen solo una vez.

Los términos que se utilizan en relativamente pocos documentos son preferibles a los términos que se mencionan en todos los documentos. Si (por ejemplo) el término siglo

se menciona en todos los documentos en su conjunto de datos, entonces puede que no considere asignarle suficiente peso para tener una columna propia en la matriz.
Del mismo modo, si está tratando con un conjunto de datos de usuarios de una red social en línea, puede convertir fácilmente ese conjunto de datos en una matriz. Los nombres de usuario o nombres ocuparán las filas; las columnas enumerarán las características que mejor describan a esos usuarios.