Hogar Finanzas personales Análisis de texto para Big Data sin estructurar: dummies

Análisis de texto para Big Data sin estructurar: dummies

Video: IA y BigData para el análisis de informacion no estructurada 2024

Video: IA y BigData para el análisis de informacion no estructurada 2024
Anonim

Existen numerosos métodos para analizar datos no estructurados para su iniciativa de big data. Históricamente, estas técnicas surgieron de áreas técnicas como el procesamiento del lenguaje natural (NLP), el descubrimiento de conocimiento, la extracción de datos, la recuperación de información y las estadísticas. El análisis de texto es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estructurada que luego puede aprovecharse de varias maneras.

Los procesos de análisis y extracción aprovechan las técnicas que se originaron en la lingüística computacional, las estadísticas y otras disciplinas de la informática.

A veces un ejemplo puede ayudar a explicar un tema complejo. Supongamos que trabaja para el departamento de marketing de una compañía de telefonía inalámbrica. Acaba de lanzar dos nuevos planes de llamadas, Plan A y Plan B, y no obtiene la aceptación que deseaba en el Plan A. El texto no estructurado de las notas del centro de llamadas podría brindarle una idea de por qué sucedió esto.

Las palabras subrayadas proporcionan la información que podría necesitar para comprender por qué el Plan A no está obteniendo una rápida adopción. Por ejemplo, la entidad Plan A aparece en todas las notas del centro de llamadas, lo que indica que los informes mencionan el plan.

Los términos minutos acumulados, datos de 4 GB, plan de datos, y costoso son evidencia de que existe un problema con los minutos de prórroga, el plan de datos y el precio. Palabras como ridículo y estúpido dan una idea del sentimiento de la persona que llama, que en este caso es negativo.

El proceso de análisis de texto usa varios algoritmos, como la comprensión de la estructura de oraciones, para analizar el texto no estructurado y luego extraer información, y transformar esa información en datos estructurados. Los datos estructurados extraídos del texto no estructurado se ilustran en la Tabla 13-1.

Identificador Entidad Problema Sentimiento
Cust XYZ Plan A Minutos en roll-over Neutro
Cust ABC Plan A Minutos de vuelco Negativo
XXXX Plan A Caro Neutro
XXXX Plan A Plan de datos Neutro
Cust XYT > Plan A Plan de datos Negativo Puede ver esto y decir: "Pero podría haberlo averiguado mirando los registros del centro de llamadas. "Sin embargo, estos son solo un pequeño subconjunto de la información registrada por miles de agentes del centro de llamadas. Cada agente individual no puede percibir una tendencia amplia con respecto al problema con cada plan ofrecido por la compañía.

Los agentes no tienen el tiempo o el requisito de compartir esta información entre todos los demás agentes del centro de llamadas que puedan recibir números similares de llamadas sobre el Plan A. Sin embargo, una vez que esta información se agrega y procesa usando algoritmos de análisis de texto, una tendencia puede surgir de estos datos no estructurados. Eso es lo que hace que el análisis de texto sea tan poderoso.

La búsqueda se trata de recuperar un documento en función de lo que los usuarios finales ya saben que están buscando. El análisis de texto trata de descubrir información. Si bien el análisis de texto difiere de la búsqueda, puede aumentar las técnicas de búsqueda. Por ejemplo, el análisis de texto combinado con la búsqueda se puede utilizar para proporcionar una mejor categorización o clasificación de documentos y para producir resúmenes o resúmenes de documentos.

Existen cuatro tecnologías: consulta, extracción de datos, búsqueda y análisis de texto. En el lado izquierdo de la tabla están la consulta y la búsqueda, que tratan sobre la recuperación. Por ejemplo, un usuario final podría consultar una base de datos para averiguar cuántos clientes dejaron de usar los servicios de la compañía en el último mes.

La consulta devolvería un solo número. Solo solicitando más y consultas diferentes, el usuario final obtendrá la información requerida para determinar por qué los clientes se van. Del mismo modo, la búsqueda de palabras clave le permite al usuario final encontrar los documentos que contienen los nombres de los competidores de una compañía. La búsqueda devolvería un grupo de documentos. Solo leyendo los documentos, el usuario final obtendría respuestas relevantes.

Recuperación

Análisis de texto para Big Data sin estructurar: dummies

Selección del editor

Examen de asistente médico: Cómo probar la trombocitopenia Condiciones: maniquíes

Examen de asistente médico: Cómo probar la trombocitopenia Condiciones: maniquíes

Trombocitopenia se define como una recuento de plaquetas <150, 000. para fines de Examen Asistido por el Médico (PANCE), las causas principales de bajo nivel de plaquetas son púrpura trombocitopénica idiopática, púrpura trombocitopénica trombótica y coagulación intravascular diseminada. PTI: problemas de producción de plaquetas La púrpura trombocitopénica idiopática (PTI) es una causa común de bajo nivel de plaquetas. Solo las plaquetas son afectadas. El ...

Examen de asistente médico: trastornos del estado de ánimo: variables ficticias

Examen de asistente médico: trastornos del estado de ánimo: variables ficticias

Debes estar familiarizado con la evaluación y el tratamiento de un estado de ánimo importante trastornos para el examen de asistente médico (PANCE). Los trastornos del estado de ánimo implican cambios importantes en las emociones de una persona. No estás simplemente lidiando con un "individuo malhumorado". "Depresión mayor y distimia La depresión es un trastorno del estado de ánimo muy común, y es una de las principales quejas ...

Preguntas sobre la práctica de exámenes médicos adjuntos sobre Huesos y articulaciones: maniquíes

Preguntas sobre la práctica de exámenes médicos adjuntos sobre Huesos y articulaciones: maniquíes

Porque las afecciones musculoesqueléticas afectan a millones de estadounidenses , puede apostar que verá preguntas sobre ellos en PANCE o PANRE. Muchas de estas afecciones pueden ser debilitantes, ya sea que se trate de afecciones reumatológicas (como artritis reumatoide o gota), problemas ortopédicos (como artrosis) o dolor de cadera o rodilla. Estas preguntas de práctica son similares a ...

Selección del editor

Crear una maqueta de cliente en Fireworks - Dummies

Crear una maqueta de cliente en Fireworks - Dummies

Un primer paso en el proceso de creación de un sitio web es definir el concepto detrás del sitio web y cómo debería verse para atraer a su público objetivo. El siguiente paso es crear una maqueta del sitio web o, como lo llaman algunos diseñadores web, una compilación. En pocas palabras, el ...

Comparación de los métodos de marketing por correo electrónico móvil: los dummies

Comparación de los métodos de marketing por correo electrónico móvil: los dummies

Consideran el marketing por correo electrónico como uno de muchas formas de comunicación móvil. Cada uno de estos muchos métodos tiene ventajas y desventajas. Esta tabla compara las principales formas de comunicación móvil para que pueda entender dónde encaja el correo electrónico móvil en su estrategia: Correo electrónico comparado con otras formas de comunicación móvil Mensajes de texto por correo electrónico móvil (SMS o ...

Realizar pruebas de usabilidad en un nuevo sitio web: simulaciones

Realizar pruebas de usabilidad en un nuevo sitio web: simulaciones

Antes de sentarse con los usuarios frente a una computadora para probar su sitio web nuevo o rediseñado, debe lograr que firmen un formulario de liberación y hacerles saber que está grabando en video la sesión de prueba del sitio web. Si está realizando pruebas con menores, debe verificar las leyes estatales al grabarlas en video. Antes de ...

Selección del editor

Análisis de texto para Big Data sin estructurar: dummies

Análisis de texto para Big Data sin estructurar: dummies

Existen numerosos métodos para analizar datos no estructurados para su iniciativa de big data. Históricamente, estas técnicas surgieron de áreas técnicas como el procesamiento del lenguaje natural (NLP), el descubrimiento de conocimiento, la extracción de datos, la recuperación de información y las estadísticas. El análisis de texto es el proceso de analizar texto no estructurado, extraer información relevante y transformarla en información estructurada que puede ...

Data Warehouse Deluxe - Dummies

Data Warehouse Deluxe - Dummies

Probablemente enfocará la mayoría de las actividades relacionadas con el almacenamiento de datos en el almacén de datos ambiente de lujo, como se muestra en esta figura. Los datos de muchas fuentes diferentes convergen en estos almacenes de datos "reales", que ponen a su disposición una gran cantidad de opciones arquitectónicas que puede adaptar para satisfacer sus necesidades específicas. Áreas temáticas y contenido de datos de ...

Diez preguntas a considerar cuando selecciona herramientas de usuario: variables ficticias

Diez preguntas a considerar cuando selecciona herramientas de usuario: variables ficticias

Algunas cosas son más es frustrante que construir con éxito un depósito de datos y luego dejarlo inutilizable con herramientas de usuario poco satisfactorias. Esta lista presenta algunas preguntas para tener en cuenta cuando evalúa herramientas que tal vez desee comprar. ¿Quiero un smorgasbord o un restaurante sentado? Seguro que no esperaba una pregunta como esta ...

Insight Estructurado
Consulta: Devuelve datos Extracción de datos: información de datos estructurados No estructurado
Búsqueda: devuelve documentos Análisis de texto: información del texto < Las tecnologías de la izquierda devuelven fragmentos de información y requieren interacción humana para sintetizar y analizar esa información. Las tecnologías de la derecha, minería de datos y análisis de texto, ofrecen una visión mucho más rápida. Con suerte, el valor del análisis de texto para su organización se está volviendo claro.