Video: Curso Java. Streams I. Accediendo a ficheros. Lectura. Vídeo 152 2025
Cuando los datos fluyen en gran cantidad cantidades, almacenarlo todo puede ser difícil o incluso imposible. De hecho, almacenarlo todo podría no ser útil. Estas son algunas de las cifras de lo que puede esperar que suceda en un minuto en Internet:
- 150 millones de correos electrónicos enviados
- 350,000 nuevos tweets enviados en Twitter
- 2. 4 millones de consultas solicitadas en Google
- 700, 000 personas iniciaron sesión en su cuenta en Facebook
Dados esos volúmenes, la acumulación de datos durante todo el día para el análisis incremental podría no parecer eficiente. Simplemente almacénelo en algún lugar y analícelo en el día siguiente o más adelante (que es la estrategia de archivo generalizada que es típica de las bases de datos y los almacenes de datos). Sin embargo, las consultas de datos útiles tienden a preguntar sobre los datos más recientes en la transmisión, y los datos se vuelven menos útiles cuando envejece (en algunos sectores, como los financieros, un día puede ser mucho tiempo).
Además, puede esperar que lleguen aún más datos mañana (la cantidad de datos aumenta a diario) y eso hace que sea difícil, si no imposible, extraer datos de los repositorios a medida que introduce datos nuevos. Sacar datos antiguos de los repositorios a medida que ingresan nuevos datos es similar al castigo de Sísifo. Sísifo, como narra un mito griego, recibió un terrible castigo del dios Zeus: verse obligado a rodar eternamente un inmenso peñasco en la cima de una colina, solo para ver cómo se bajaba cada vez.
A veces, haciendo que las cosas sean aún más difíciles de manejar, los datos pueden llegar tan rápido y en cantidades tan grandes que es imposible escribirlo en el disco: la nueva información llega más rápido que el tiempo requerido para escribirla en el disco duro. Este es un problema típico de los experimentos de partículas con aceleradores de partículas como el Gran Colisionador de Hadrones, que requiere que los científicos decidan qué datos conservar. Por supuesto, puede poner en cola los datos durante un tiempo, pero no por mucho tiempo, porque la cola crecerá rápidamente y se volverá imposible de mantener. Por ejemplo, si se mantiene en la memoria, los datos de la cola pronto llevarán a un error de falta de memoria.
Debido a que los nuevos flujos de datos pueden volver obsoleto el procesamiento previo de los datos antiguos, y la postergación no es una solución, las personas han ideado múltiples estrategias para lidiar de forma instantánea con cantidades de datos masivas y cambiables. Las personas usan tres formas de manejar grandes cantidades de datos:
- Almacenado: Algunos datos se almacenan porque pueden ayudar a responder preguntas poco claras más adelante. Este método se basa en técnicas para almacenarlo inmediatamente y analizarlo más tarde muy rápido, sin importar cuán masivo sea.
- Resumido: Algunos datos se resumen porque mantenerlo como está no tiene sentido; solo se conservan los datos importantes.
- Consumido: Los datos restantes se consumen porque su uso está predeterminado. Los algoritmos pueden leer, digerir y convertir los datos en información de manera instantánea. Después de eso, el sistema olvida los datos para siempre.
Cuando se habla de datos masivos que llegan a un sistema informático, a menudo se escucha en comparación con el agua: datos de transmisión, flujos de datos, manguera de incendios de datos.
Descubre cómo las secuencias de datos son como consumir agua del grifo: abrir el grifo le permite almacenar el agua en tazas o botellas, o puede usarlo para cocinar, fregar alimentos, limpiar platos o lavarse las manos. En cualquier caso, la mayor parte o la totalidad del agua se ha ido, sin embargo, resulta muy útil y, de hecho, vital.