Video: IA y BigData para el análisis de informacion no estructurada 2024
Existen numerosos métodos para analizar datos no estructurados para su iniciativa de big data. Históricamente, estas técnicas surgieron de áreas técnicas como el procesamiento del lenguaje natural (NLP), el descubrimiento de conocimiento, la extracción de datos, la recuperación de información y las estadísticas. El análisis de texto es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estructurada que luego puede aprovecharse de varias maneras.
Los procesos de análisis y extracción aprovechan las técnicas que se originaron en la lingüística computacional, las estadísticas y otras disciplinas de la informática.
A veces un ejemplo puede ayudar a explicar un tema complejo. Supongamos que trabaja para el departamento de marketing de una compañía de telefonía inalámbrica. Acaba de lanzar dos nuevos planes de llamadas, Plan A y Plan B, y no obtiene la aceptación que deseaba en el Plan A. El texto no estructurado de las notas del centro de llamadas podría brindarle una idea de por qué sucedió esto.
Las palabras subrayadas proporcionan la información que podría necesitar para comprender por qué el Plan A no está obteniendo una rápida adopción. Por ejemplo, la entidad Plan A aparece en todas las notas del centro de llamadas, lo que indica que los informes mencionan el plan.
Los términos minutos acumulados, datos de 4 GB, plan de datos, y costoso son evidencia de que existe un problema con los minutos de prórroga, el plan de datos y el precio. Palabras como ridículo y estúpido dan una idea del sentimiento de la persona que llama, que en este caso es negativo.
El proceso de análisis de texto usa varios algoritmos, como la comprensión de la estructura de oraciones, para analizar el texto no estructurado y luego extraer información, y transformar esa información en datos estructurados. Los datos estructurados extraídos del texto no estructurado se ilustran en la Tabla 13-1.
Identificador | Entidad | Problema | Sentimiento |
---|---|---|---|
Cust XYZ | Plan A | Minutos en roll-over | Neutro |
Cust ABC | Plan A | Minutos de vuelco | Negativo |
XXXX | Plan A | Caro | Neutro |
XXXX | Plan A | Plan de datos | Neutro |
Cust XYT > Plan A | Plan de datos | Negativo | Puede ver esto y decir: "Pero podría haberlo averiguado mirando los registros del centro de llamadas. "Sin embargo, estos son solo un pequeño subconjunto de la información registrada por miles de agentes del centro de llamadas. Cada agente individual no puede percibir una tendencia amplia con respecto al problema con cada plan ofrecido por la compañía. |
Los agentes no tienen el tiempo o el requisito de compartir esta información entre todos los demás agentes del centro de llamadas que puedan recibir números similares de llamadas sobre el Plan A. Sin embargo, una vez que esta información se agrega y procesa usando algoritmos de análisis de texto, una tendencia puede surgir de estos datos no estructurados. Eso es lo que hace que el análisis de texto sea tan poderoso.
La búsqueda se trata de recuperar un documento en función de lo que los usuarios finales ya saben que están buscando. El análisis de texto trata de descubrir información. Si bien el análisis de texto difiere de la búsqueda, puede aumentar las técnicas de búsqueda. Por ejemplo, el análisis de texto combinado con la búsqueda se puede utilizar para proporcionar una mejor categorización o clasificación de documentos y para producir resúmenes o resúmenes de documentos.
Existen cuatro tecnologías: consulta, extracción de datos, búsqueda y análisis de texto. En el lado izquierdo de la tabla están la consulta y la búsqueda, que tratan sobre la recuperación. Por ejemplo, un usuario final podría consultar una base de datos para averiguar cuántos clientes dejaron de usar los servicios de la compañía en el último mes.
La consulta devolvería un solo número. Solo solicitando más y consultas diferentes, el usuario final obtendrá la información requerida para determinar por qué los clientes se van. Del mismo modo, la búsqueda de palabras clave le permite al usuario final encontrar los documentos que contienen los nombres de los competidores de una compañía. La búsqueda devolvería un grupo de documentos. Solo leyendo los documentos, el usuario final obtendría respuestas relevantes.
Recuperación
Insight | Estructurado | |
---|---|---|
Consulta: Devuelve datos | Extracción de datos: información de datos estructurados | No estructurado |
Búsqueda: devuelve documentos | Análisis de texto: información del texto < Las tecnologías de la izquierda devuelven fragmentos de información y requieren interacción humana para sintetizar y analizar esa información. Las tecnologías de la derecha, minería de datos y análisis de texto, ofrecen una visión mucho más rápida. Con suerte, el valor del análisis de texto para su organización se está volviendo claro. |