Saltar al contenido
Integrafy-OS · 02 Data Lake

O armazém único da sua verdade.

Dados crus e normalizados no mesmo sítio. Versionamento nativo com time travel. Lineage end-to-end. Particionamento multi-tenant e por tempo. Compatível com S3 sobre Apache Iceberg.

Diagrama do Data Lake do Integrafy-OS

O que torna este Data Lake diferente?

Duas zonas, um storage

Zona raw para dados crus tal como chegam; zona normalizada com o modelo canónico aplicado. Ambas coexistem e cruzam-se a pedido.

Lineage automático

Cada linha do lake sabe de que evento veio, que transformações passou, quando foi escrita. Rastreabilidade total para auditoria e debug.

Time travel

Consulte o estado do lake em qualquer momento passado. SELECT ... AS OF ontem. Relatórios históricos sem snapshots manuais.

Particionamento inteligente

Por data, tenant, tipo de evento. As consultas lêem apenas as partições relevantes. Escalável a terabytes sem sacrificar velocidade.

Compacting automático

O lake compacta ficheiros pequenos em grandes para manter performance. Sem manutenção manual nem degradação com o uso.

Multi-tenant nativo

Cada tenant tem partições isoladas com ACLs. Segurança por omissão sem réplicas de infra-estrutura.

Exemplo real: resolver uma discrepância contabilística

Problema: Uma factura emitida no mês passado não bate certo com a guia de transporte.

Sem lake: Procurar em logs do ERP, ficheiros EDI, backups manuais. Horas de trabalho, por vezes dias.

Com Integrafy-OS Data Lake:

→ Consulta a encomenda AS OF há 30 dias

→ Segue o lineage até ao evento original do eCommerce

→ Compara com o estado actual do ERP

→ A diferença é evidente: um ajuste manual posterior quebrou a cadeia.

Perguntas frequentes sobre Data Lake

Que tecnologia de storage utiliza o Data Lake?

Armazenamento de objectos compatível com S3 (AWS S3, Cloudflare R2, MinIO on-prem) em formato Apache Iceberg ou Parquet. Escolhemos a camada que se adequa ao ambiente do cliente: Cloud UE gerido ou On-Premise na sua infra-estrutura.

O que é o lineage e porque é importante?

O lineage é a rastreabilidade do dado: de que fonte vem, que transformações sofreu, onde está replicado. Quando um KPI parece estranho, em vez de investigar às cegas, segue o lineage e encontra a origem em segundos. Indispensável para auditoria e debugging.

São guardadas versões anteriores dos dados?

Sim. Time travel nativo: pode consultar o estado exacto do lake em qualquer momento passado (retenção configurável, tipicamente 90 dias). Isto permite reconstruir relatórios históricos sem manter snapshots manuais.

De quanto storage necessito?

Depende do volume de eventos e da retenção. Num B2B industrial típico (100-500 encomendas/dia, 50k produtos) o lake inicial ronda os 10-50 GB. O Cloud UE escala automaticamente; o On-Premise é dimensionado com a sua equipa.

O Data Lake substitui o meu data warehouse actual?

Pode fazê-lo, mas não é obrigatório. O Integrafy-OS pode coexistir com o seu Snowflake/BigQuery/Redshift existente como fonte complementar. Muitos clientes mantêm o seu DWH para analítica histórica e usam o Integrafy-OS para o dado operacional em tempo real.

Quantas horas perde a sua equipa a procurar dados?

Diagnóstico gratuito em 30 minutos.