Saltar al contenido
Integrafy-OS · 02 Data Lake

El almacén único de tu verdad.

Datos crudos y normalizados en el mismo sitio. Versionado nativo con time travel. Lineage end-to-end. Particionado multi-tenant y por tiempo. Compatible S3 sobre Apache Iceberg.

Diagrama del Data Lake de Integrafy-OS

¿Qué hace distinto a este Data Lake?

Dos zonas, un storage

Zona raw para datos crudos tal como llegan; zona normalizada con el modelo canónico aplicado. Ambas conviven y se cruzan bajo demanda.

Lineage automático

Cada fila del lake sabe de qué evento vino, qué transformaciones pasó, cuándo se escribió. Trazabilidad total para auditoría y debug.

Time travel

Consulta el estado del lake en cualquier momento pasado. SELECT ... AS OF ayer. Reports históricos sin snapshots manuales.

Particionado inteligente

Por fecha, tenant, tipo de evento. Las consultas leen solo las particiones relevantes. Escalable a terabytes sin sacrificar velocidad.

Compacting automático

El lake compacta ficheros pequeños en grandes para mantener performance. Sin mantenimiento manual ni degradación por uso.

Multi-tenant nativo

Cada tenant tiene particiones aisladas con ACLs. Seguridad por defecto sin réplicas de infraestructura.

Ejemplo real: resolver una discrepancia contable

Problema: Una factura emitida el mes pasado no cuadra con el albarán.

Sin lake: Buscar en logs del ERP, ficheros EDI, backups manuales. Horas de trabajo, a veces días.

Con Integrafy-OS Data Lake:

→ Consulta el pedido AS OF hace 30 días

→ Sigues el lineage hasta el evento original del eCommerce

→ Comparas con el estado actual del ERP

→ La diferencia es evidente: un ajuste manual posterior rompió la cadena.

Preguntas frecuentes sobre Data Lake

¿Qué tecnología de storage usa el Data Lake?

Almacenamiento objeto compatible S3 (AWS S3, Cloudflare R2, MinIO on-prem) con formato Apache Iceberg o Parquet. Elegimos la capa que encaja con el entorno del cliente: Cloud UE gestionado u On-Premise en tu infraestructura.

¿Qué es el lineage y por qué importa?

Lineage es la trazabilidad del dato: de qué fuente viene, qué transformaciones ha sufrido, dónde está replicado. Cuando un KPI sale raro, en vez de investigar a ciegas, sigues el linaje y encuentras el origen en segundos. Indispensable para auditoría y debugging.

¿Se guardan versiones anteriores de los datos?

Sí. Time travel nativo: puedes consultar el estado exacto del lake en cualquier momento pasado (retención configurable, típicamente 90 días). Esto permite reconstruir reports históricos sin mantener snapshots manuales.

¿Cuánto storage necesito?

Depende del volumen de eventos y la retención. En un B2B industrial típico (100-500 pedidos/día, 50k productos) el lake inicial ronda los 10-50 GB. El Cloud UE escala automáticamente; el On-Premise lo dimensionas con tu equipo.

¿El Data Lake sustituye mi data warehouse actual?

Puede hacerlo, pero no es obligatorio. Integrafy-OS puede coexistir con tu Snowflake/BigQuery/Redshift existente como fuente complementaria. Muchos clientes mantienen su DWH para analítica histórica y usan Integrafy-OS para el dato operativo en tiempo real.

¿Cuántas horas pierde tu equipo buscando datos?

Diagnóstico gratuito en 30 minutos.