Ingestion
Kurzzusammenfassung
- Metadaten-Ingestion erfasst Investment-Datasets (Preise, Fundamentals, Corporate Actions, Features) automatisiert in OpenMetadata.
- Business-Nutzen: Portfolio- und ML-Teams finden vertrauenswürdige Daten schneller und mit klarer Verantwortlichkeit.
- BPMN-Leitpfad: Task
Extract Metadata→ GatewayMandatory metadata complete?→ OutcomeCatalog entity published. - Gate-Logik: Ohne Gate-A-Pflichtfelder bleibt das Asset im Draft/Quarantine.
Ziel
Jedes neu ingestierte Datenobjekt ist innerhalb eines Laufs technisch beschrieben, fachlich zugeordnet und für Gate A (Data & Purpose) prüfbar.
Quelltypen und Ingestion-Frequenz
| Quelltyp | Typische Systeme | Ingestion-Frequenz | SLA für Katalogsichtbarkeit |
|---|---|---|---|
| OLTP/Relationale DB | PostgreSQL, SQL Server, Oracle | stündlich (Schema), täglich (Profiling) | p95 ≤ 10 min nach erfolgreichem Run |
| Data Warehouse/Lakehouse | Snowflake, BigQuery, Databricks Unity Catalog | alle 30 min (Schema + Lineage), täglich (Statistiken) | p95 ≤ 15 min |
| Event/Streaming | Kafka Topics, CDC Streams | alle 15 min Snapshot + täglich Vollabgleich | p95 ≤ 20 min |
| Files/Objektspeicher | S3/ADLS/Blob (Parquet, CSV) | pro Landing-Run + täglicher Full Scan | p95 ≤ 20 min |
| BI/ML-Artefakte | dbt, MLflow, Feature Store | pro Deployment/Promotion Event | p95 ≤ 10 min |
Technische Metadaten pro Ingestion-Run
Jeder Run erzeugt mindestens folgende technische Metadaten:
run_id,pipeline_id,source_system,connector_versioningestion_started_at,ingestion_finished_at,status,error_classschema_hash,record_count(falls verfügbar),last_successful_runlineage_edges_detected,dq_checks_triggered,policy_tags_applied
Minimale Pflichtfelder pro OpenMetadata-Entity
| OpenMetadata Entity | Pflichtfelder (Minimum) | Gate-Relevanz |
|---|---|---|
| Table | name, service, databaseSchema, columns[], owner, tags.classification, description, retention_policy, allowed_use, dq_status_initial | Gate A (Data & Purpose), Gate B (Pilot Ready) |
| Topic | name, service, schemaType, messageSchema, owner, retention, contains_pii, purpose, freshness_sla | Gate A, Gate B |
| Dashboard | name, service, owner, linked_datasets[], criticality, access_policy | Gate A, Gate C |
| Pipeline | name, service, tasks, upstream_entities[], downstream_entities[], owner, schedule | Gate B, Gate C |
| ML Model | name, owner, training_dataset_ref, feature_set_ref, model_stage, lineage_status, risk_class | Gate C |
Ablauf
| BPMN-Schritt | Mechanik (Task/Gateway/Outcome) | Artefakte & Verantwortlich |
|---|---|---|
| Task: Extract Metadata | Scanner liest Schema, Partitionierung, Refresh-Zeit, Source-System | Artefakt: metadata_raw.json; Responsible: Platform Team |
| Task: Enrich Business Context | Domain, Datenklasse, Owner, Steward, Purpose setzen | Artefakt: dataset_profile; Responsible: Data Steward |
| Gateway: Mandatory metadata complete? | Prüft entity-spezifische Pflichtfelder und technische Run-Metadaten | Nein: Status draft + Ticket; Accountable: Data Owner |
| Outcome: Catalog entity published | Versionierter OpenMetadata-Eintrag mit Audit-Event | Artefakt: Entity + Change-Event |
Kontrollen
Governance- und Risiko-Aspekte
- Pflicht-Policies: Access, Retention, Allowed Use, ggf. Restriktion für research-only.
- Für marktkritische Daten (z. B. EOD-Preisfeed) ist Steward-Vertretung verpflichtend.
- Jeder Ingestion-Lauf ist über
run_idauf Quellsystem und Incident rückverfolgbar.
Messbare Akzeptanzkriterien
| Kriterium | Grenzwert | Verantwortlich | Eskalation |
|---|---|---|---|
| Gate-A-Pflichtfelder vollständig | 100 % pro Entity | Data Steward | sofortiger Publish-Stop |
| Sichtbarkeit neuer Assets nach technischem Lauf | p95 ≤ 10 min | Platform Team | > 30 min: P2 Incident |
| Fehlgeschlagene Ingestion-Runs | < 2 % pro Tag | Platform Ops | ≥ 5 %: P1 Incident |
Entscheidung
- Entity ist technisch + fachlich vollständig (Owner/Policy/Purpose/DQ-Status).
- Gateway-Entscheidung ist im Audit-Log dokumentiert.
- Bei Blockierung existiert Ticket mit Owner und ETA.
⋮⋮⋮
Glossar-Begriffe
Diese Seite nutzt die kanonischen Begriffe Data Pipeline, Data Product, DQ und OpenMetadata.
BPMN-Kontext
- IDs:
CallActivity_DataPipeline - Input-Bezug: Quellsysteme, Ingestion-Konfiguration, Schemainformationen.
- Entscheidungsbezug: Bei Ingestion-Fehlern Übergang in Incident-/Review-Pfad; Gate-Kriterien sind in der zentralen Gate-Logik referenziert.
- Output-Bezug: Validierte Roh- und Metadaten als Eingang für Purpose- und Quality-Gates.