Zum Hauptinhalt springen

Warehouse

Zweck

Das Warehouse ist die verlässliche Übergabeschicht zwischen Rohdatenaufnahme und analytischer/ML-Nutzung. Es standardisiert Datenverträge, konserviert Versionen und liefert DQ-freigegebene Datensätze für wiederverwendbare Feature- und Reporting-Prozesse.

Vertraglicher Übergabepunkt aus Sources

Nur Datensätze mit bestandenem Source-Contract und dokumentierter DQ-Freigabe werden übernommen.

ÜbergabeobjektPflichtmetadatenBlocker
Curated Datasetdataset_id, contract_version, schema_version, run_idFehlende Owner-/Contract-Zuordnung
Historische Partitioneffective_from, effective_to, as_ofUnklare Zeitbezüge
DQ-Freigabedq_status, rule_results, approved_byOffene kritische DQ-Verstösse

Versionierungsmodell

  • Datenvertrag-Version steuert fachliche Erwartung (Bedeutung, SLO, Nutzung).
  • Schema-Version steuert technische Struktur.
  • Dataset-Version referenziert eine konkrete ausgelieferte Datenmenge (dataset_id + partition + run_id).
  • Breaking Changes im Contract (Major) erfordern Freigabe durch Data Owner und dokumentierte Downstream-Impact-Analyse.

DQ-Übergabe in den Feature Store

Der Warehouse-Ausgang ist als Gate definiert:

  1. DQ-Status je Partition wird persistiert.
  2. Nur Partitionen mit dq_status=pass werden als Feature-Input markiert.
  3. warn-Status erfordert dokumentierte Ausnahmeentscheidung.
  4. fail-Status führt zu Quarantine und ggf. Incident.

Incident-Verknüpfung

  • Jede zurückgewiesene Warehouse-Übergabe enthält eine Incident-/Ticket-Referenz.
  • Incident-Datensatz muss Impact auf abhängige Feature-Pipelines ausweisen (betroffene Modelle, verzögerte Runs).
  • Post-Incident-Review aktualisiert Contract- oder DQ-Regeln, damit derselbe Fehler reproduzierbar verhindert wird.

Designprinzipien für Wiederverwendbarkeit

  • Stabile Business-Keys und dokumentierte Semantik.
  • Zeitbezug (as_of) in jedem relevanten Dataset.
  • Einheitliche Metadatenfelder über alle Domänen.
  • Konsistente Referenzen auf Glossary-Begriffe und Traceability.

Siehe auch: Sources, Feature Store, Quarantine, Glossary, Traceability Matrix.