Zum Hauptinhalt springen

Ingestion

Kurzzusammenfassung

  • Metadaten-Ingestion erfasst Investment-Datasets (Preise, Fundamentals, Corporate Actions, Features) automatisiert in OpenMetadata.
  • Business-Nutzen: Portfolio- und ML-Teams finden vertrauenswürdige Daten schneller und mit klarer Verantwortlichkeit.
  • BPMN-Leitpfad: Task Extract Metadata → Gateway Mandatory metadata complete? → Outcome Catalog entity published.
  • Gate-Logik: Ohne Gate-A-Pflichtfelder bleibt das Asset im Draft/Quarantine.

Ziel

Jedes neu ingestierte Datenobjekt ist innerhalb eines Laufs technisch beschrieben, fachlich zugeordnet und für Gate A (Data & Purpose) prüfbar.

Quelltypen und Ingestion-Frequenz

QuelltypTypische SystemeIngestion-FrequenzSLA für Katalogsichtbarkeit
OLTP/Relationale DBPostgreSQL, SQL Server, Oraclestündlich (Schema), täglich (Profiling)p95 ≤ 10 min nach erfolgreichem Run
Data Warehouse/LakehouseSnowflake, BigQuery, Databricks Unity Catalogalle 30 min (Schema + Lineage), täglich (Statistiken)p95 ≤ 15 min
Event/StreamingKafka Topics, CDC Streamsalle 15 min Snapshot + täglich Vollabgleichp95 ≤ 20 min
Files/ObjektspeicherS3/ADLS/Blob (Parquet, CSV)pro Landing-Run + täglicher Full Scanp95 ≤ 20 min
BI/ML-Artefaktedbt, MLflow, Feature Storepro Deployment/Promotion Eventp95 ≤ 10 min

Technische Metadaten pro Ingestion-Run

Jeder Run erzeugt mindestens folgende technische Metadaten:

  • run_id, pipeline_id, source_system, connector_version
  • ingestion_started_at, ingestion_finished_at, status, error_class
  • schema_hash, record_count (falls verfügbar), last_successful_run
  • lineage_edges_detected, dq_checks_triggered, policy_tags_applied

Minimale Pflichtfelder pro OpenMetadata-Entity

OpenMetadata EntityPflichtfelder (Minimum)Gate-Relevanz
Tablename, service, databaseSchema, columns[], owner, tags.classification, description, retention_policy, allowed_use, dq_status_initialGate A (Data & Purpose), Gate B (Pilot Ready)
Topicname, service, schemaType, messageSchema, owner, retention, contains_pii, purpose, freshness_slaGate A, Gate B
Dashboardname, service, owner, linked_datasets[], criticality, access_policyGate A, Gate C
Pipelinename, service, tasks, upstream_entities[], downstream_entities[], owner, scheduleGate B, Gate C
ML Modelname, owner, training_dataset_ref, feature_set_ref, model_stage, lineage_status, risk_classGate C

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Extract MetadataScanner liest Schema, Partitionierung, Refresh-Zeit, Source-SystemArtefakt: metadata_raw.json; Responsible: Platform Team
Task: Enrich Business ContextDomain, Datenklasse, Owner, Steward, Purpose setzenArtefakt: dataset_profile; Responsible: Data Steward
Gateway: Mandatory metadata complete?Prüft entity-spezifische Pflichtfelder und technische Run-MetadatenNein: Status draft + Ticket; Accountable: Data Owner
Outcome: Catalog entity publishedVersionierter OpenMetadata-Eintrag mit Audit-EventArtefakt: Entity + Change-Event

Kontrollen

Governance- und Risiko-Aspekte

  • Pflicht-Policies: Access, Retention, Allowed Use, ggf. Restriktion für research-only.
  • Für marktkritische Daten (z. B. EOD-Preisfeed) ist Steward-Vertretung verpflichtend.
  • Jeder Ingestion-Lauf ist über run_id auf Quellsystem und Incident rückverfolgbar.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Gate-A-Pflichtfelder vollständig100 % pro EntityData Stewardsofortiger Publish-Stop
Sichtbarkeit neuer Assets nach technischem Laufp95 ≤ 10 minPlatform Team> 30 min: P2 Incident
Fehlgeschlagene Ingestion-Runs< 2 % pro TagPlatform Ops≥ 5 %: P1 Incident

Entscheidung

  • Entity ist technisch + fachlich vollständig (Owner/Policy/Purpose/DQ-Status).
  • Gateway-Entscheidung ist im Audit-Log dokumentiert.
  • Bei Blockierung existiert Ticket mit Owner und ETA.
⋮⋮⋮

Glossar-Begriffe

Diese Seite nutzt die kanonischen Begriffe Data Pipeline, Data Product, DQ und OpenMetadata.

BPMN-Kontext

  • IDs: CallActivity_DataPipeline
  • Input-Bezug: Quellsysteme, Ingestion-Konfiguration, Schemainformationen.
  • Entscheidungsbezug: Bei Ingestion-Fehlern Übergang in Incident-/Review-Pfad; Gate-Kriterien sind in der zentralen Gate-Logik referenziert.
  • Output-Bezug: Validierte Roh- und Metadaten als Eingang für Purpose- und Quality-Gates.