Video: Leucemia | Cáncer en glóbulos blancos | Vídeos de Medicina Clara con el Dr. Bueno 2025
Cuando confía en la tecnología o la instrumentación para realizar una tarea de análisis predictivo, un error aquí o allí puede hacer que estos instrumentos registren valores extremos o inusuales. Si los sensores registran valores de observación que no cumplen con los estándares básicos de control de calidad, pueden producir interrupciones reales que se reflejan en los datos.
Alguien que realiza una entrada de datos, por ejemplo, puede agregar fácilmente un 0 extra al final de un valor por error, sacando la entrada del rango y produciendo un valor atípico.
Si observa datos de observación recopilados por un sensor de agua instalado en el puerto de Baltimore e informa una profundidad de agua de 20 pies sobre el nivel medio del mar, tiene un valor atípico. El sensor obviamente está mal a menos que Baltimore esté completamente cubierto por agua.
Los datos pueden terminar siendo atípicos debido a eventos externos o un error de una persona o un instrumento.
Si un evento real como una falla repentina se remonta a un error en el sistema, sus consecuencias siguen siendo reales, pero si conoce el origen del problema, puede concluir que hay un error en los datos, no en su modelo, tenía la culpa si su modelo no predecía el evento.
Conocer la fuente del valor atípico guiará su decisión sobre cómo manejarlo. Los valores atípicos que fueron el resultado de errores de entrada de datos se pueden corregir fácilmente después de consultar la fuente de datos. Los valores atípicos que reflejan un cambio en la realidad pueden incitarlo a cambiar su modelo.
No hay una respuesta única para todos cuando se decide si incluir o no datos extremos que no sean un error o falla. Su respuesta depende de la naturaleza del análisis que está haciendo y del tipo de modelo que está construyendo. En algunos casos, la forma de lidiar con esos valores atípicos es sencilla:
-
Si realiza un seguimiento de su valor atípico a un error de ingreso de datos cuando consulta la fuente de datos, puede corregir fácilmente los datos y (probablemente) mantener intacto el modelo.
-
Si ese sensor de agua en Baltimore Harbor informa agua a una profundidad de 20 pies sobre el nivel medio del mar, y estás en Baltimore, mira por tu ventana:
-
Si Baltimore no está completamente cubierto por agua, el sensor es obviamente incorrecto
-
Si ves un pez mirándote, la realidad ha cambiado; puede que tenga que revisar su modelo.
-
-
La falla repentina puede haber sido un evento de una sola vez (a corto plazo, de todos modos), pero sus efectos fueron reales, y si ha estudiado el mercado a largo plazo, sabrá que algo similar puede suceder nuevamente.Si su empresa está en finanzas y maneja el mercado bursátil todo el tiempo, quiere que su modelo tenga en cuenta esas aberraciones.
En general, si el resultado de un evento que normalmente se considera un valor atípico puede tener un impacto significativo en su negocio, considere cómo lidiar con esos eventos en su análisis. Tenga en cuenta estos puntos generales acerca de los valores atípicos:
-
El conjunto de datos más pequeño es, más significativo que los valores atípicos de impacto pueden tener en el análisis.
-
A medida que desarrolla su modelo, asegúrese de desarrollar técnicas para encontrar valores atípicos y comprender sistemáticamente su impacto en su negocio.
-
La detección de valores atípicos puede ser un proceso complejo; no hay una forma simple de identificarlos.
-
Un experto en dominios (alguien que conoce el campo que está modelando) es su mejor persona para verificar si un punto de datos es válido, un valor atípico que puede ignorar o un valor atípico que tiene tener en cuenta. El experto en el dominio debería ser capaz de explicar qué factores crearon el valor atípico, cuál es su rango de variabilidad y su impacto en el negocio.
-
Las herramientas de visualización pueden ayudarlo a detectar valores atípicos en los datos. Además, si conoce el rango esperado de valores, puede consultar fácilmente los datos que caen fuera de ese rango.