Saltar al contenido
Integrafy-OS · 01 Ingestion

De n’importe quelle source au lake. En quelques minutes.

Connecteurs ERP, eCommerce, CRM, APIs et fichiers sur le même moteur. Streaming et batch. Validation à l’entrée. Reprises avec backoff. Sans pipelines manuels.

Diagramme d’ingestion de données dans Integrafy-OS

Quels types de sources\u00a0?

APIs modernes

REST, GraphQL, gRPC. Authentification OAuth 2.0, JWT, API Key. Rate limiting géré automatiquement.

Protocoles legacy

SOAP, RFC, EDI (EDIFACT, X12), COM. Pour les ERP qui n’ont pas été mis à jour depuis des décennies.

Bases de données

PostgreSQL, MySQL, SQL Server, Oracle, DB2. Change Data Capture quand c’est possible ; polling programmé sinon.

Fichiers

CSV, JSON, XML, Parquet. Sur FTP, SFTP, S3, Azure Blob ou dossiers locaux. Traitement incrémental.

Webhooks

Endpoint sécurisé signé pour recevoir des événements push. PrestaShop, Shopify, HubSpot, Salesforce — tous pris en charge.

Streaming

Kafka, RabbitMQ, AWS Kinesis. Ingestion en temps réel pour haut volume avec garanties at-least-once.

Pipeline visuel\u00a0: de l\u2019événement au Data Lake

1. L\u2019événement arrive au connecteur (webhook, polling, fichier)
2. Validation de signature et authentification
3. Transformation déclarative (SQL, Python, JavaScript)
4. Validation de schéma et règles métier
5. Écriture dans le Data Lake avec timestamp et lineage
6. Notification au reste du système (event bus)

Questions fréquentes sur l’Ingestion

Quels types de sources puis-je ingérer ?

Toute source avec API REST, GraphQL, SOAP, base de données (PostgreSQL, MySQL, SQL Server, Oracle, DB2), fichiers (CSV, JSON, Parquet, XML, EDI) sur FTP/SFTP/S3, ou webhooks entrants. Si votre système expose des données d’une manière ou d’une autre, Integrafy-OS les lit.

Comment sont gérés les schémas changeants ?

Les connecteurs prennent en charge le schema-on-read (ingestion brute, schéma appliqué ensuite) et le schema-on-write (schéma validé à l’entrée). Quand un champ change à la source, le lake conserve les versions antérieures avec lineage explicite, et Data Hub propose une réconciliation assistée.

Streaming ou batch ?

Les deux sur le même moteur. Événements en temps réel via webhooks/Kafka/web services ; batch programmé pour les sources lourdes (fichiers quotidiens, chargements complets hebdomadaires). La décision se prend par connecteur, pas par produit.

Que se passe-t-il si une source tombe ?

Integrafy-OS maintient un buffer d’événements et des reprises avec backoff exponentiel. Quand la source revient, le buffer est vidé en respectant l’ordre. Les alertes Insight préviennent l’équipe si le retard dépasse des seuils configurables.

Puis-je valider les données avant qu’elles n’atteignent le lake ?

Oui. Chaque pipeline accepte des règles de validation (type, plage, regex, référence à d’autres tables) et des transformations (nettoyage, enrichissement, déduplication). Les enregistrements qui échouent à la validation vont dans une dead letter queue pour revue.

Quelle source reste à connecter ?

Diagnostic gratuit en 30 minutes.