Saltar al contenido
Integrafy-OS · 01 Ingesta

De cualquier fuente al lake. En minutos.

Conectores ERP, eCommerce, CRM, APIs y ficheros sobre el mismo motor. Streaming y batch. Validación al entrar. Reintentos con backoff. Sin pipelines manuales.

Diagrama de ingesta de datos en Integrafy-OS

¿Qué tipos de fuente?

APIs modernas

REST, GraphQL, gRPC. Autenticación OAuth 2.0, JWT, API Key. Rate limiting gestionado automáticamente.

Protocolos legacy

SOAP, RFC, EDI (EDIFACT, X12), COM. Para ERPs que no se actualizan desde hace décadas.

Bases de datos

PostgreSQL, MySQL, SQL Server, Oracle, DB2. Change Data Capture cuando es posible; polling programado si no.

Ficheros

CSV, JSON, XML, Parquet. En FTP, SFTP, S3, Azure Blob o carpetas locales. Procesamiento incremental.

Webhooks

Endpoint seguro firmado para recibir eventos push. PrestaShop, Shopify, HubSpot, Salesforce — todos soportados.

Streaming

Kafka, RabbitMQ, AWS Kinesis. Ingesta en tiempo real para alto volumen con garantías at-least-once.

Pipeline visual: de evento a Data Lake

1. Evento llega al conector (webhook, polling, fichero)
2. Validación de firma y autenticación
3. Transformación declarativa (SQL, Python, JavaScript)
4. Validación de schema y reglas de negocio
5. Escritura al Data Lake con timestamp y lineage
6. Notificación al resto del sistema (event bus)

Preguntas frecuentes sobre Ingesta

¿Qué tipos de fuente puedo ingestar?

Cualquier fuente con API REST, GraphQL, SOAP, base de datos (PostgreSQL, MySQL, SQL Server, Oracle, DB2), ficheros (CSV, JSON, Parquet, XML, EDI) en FTP/SFTP/S3, o webhooks entrantes. Si tu sistema expone datos de alguna forma, Integrafy-OS los lee.

¿Cómo se gestionan los schemas cambiantes?

Los conectores soportan schema-on-read (ingesta cruda, esquema se aplica después) y schema-on-write (esquema validado al entrar). Cuando un campo cambia en origen, el lake mantiene las versiones antiguas con lineage explícito, y Data Hub ofrece reconciliación asistida.

¿Streaming o batch?

Ambos sobre el mismo motor. Eventos en tiempo real via webhooks/Kafka/webservices; batch programado para fuentes pesadas (ficheros diarios, cargas completas semanales). La decisión es por conector, no por producto.

¿Qué pasa si una fuente se cae?

Integrafy-OS mantiene buffer de eventos y reintentos con backoff exponencial. Cuando la fuente vuelve, se drena el buffer respetando orden. Las alertas de Insight avisan al equipo si el retraso supera umbrales configurables.

¿Puedo validar los datos antes de que lleguen al lake?

Sí. Cada pipeline admite reglas de validación (tipo, rango, regex, referencia a otras tablas) y transformaciones (limpieza, enriquecimiento, deduplicación). Los registros que fallan validación van a una dead letter queue para revisión.

¿Qué fuente tienes pendiente de conectar?

Diagnóstico gratuito en 30 minutos.