Warehouse
Zweck
Das Warehouse ist die verlässliche Übergabeschicht zwischen Rohdatenaufnahme und analytischer/ML-Nutzung. Es standardisiert Datenverträge, konserviert Versionen und liefert DQ-freigegebene Datensätze für wiederverwendbare Feature- und Reporting-Prozesse.
Vertraglicher Übergabepunkt aus Sources
Nur Datensätze mit bestandenem Source-Contract und dokumentierter DQ-Freigabe werden übernommen.
| Übergabeobjekt | Pflichtmetadaten | Blocker |
|---|---|---|
| Curated Dataset | dataset_id, contract_version, schema_version, run_id | Fehlende Owner-/Contract-Zuordnung |
| Historische Partition | effective_from, effective_to, as_of | Unklare Zeitbezüge |
| DQ-Freigabe | dq_status, rule_results, approved_by | Offene kritische DQ-Verstösse |
Versionierungsmodell
- Datenvertrag-Version steuert fachliche Erwartung (Bedeutung, SLO, Nutzung).
- Schema-Version steuert technische Struktur.
- Dataset-Version referenziert eine konkrete ausgelieferte Datenmenge (
dataset_id + partition + run_id). - Breaking Changes im Contract (Major) erfordern Freigabe durch Data Owner und dokumentierte Downstream-Impact-Analyse.
DQ-Übergabe in den Feature Store
Der Warehouse-Ausgang ist als Gate definiert:
- DQ-Status je Partition wird persistiert.
- Nur Partitionen mit
dq_status=passwerden als Feature-Input markiert. warn-Status erfordert dokumentierte Ausnahmeentscheidung.fail-Status führt zu Quarantine und ggf. Incident.
Incident-Verknüpfung
- Jede zurückgewiesene Warehouse-Übergabe enthält eine Incident-/Ticket-Referenz.
- Incident-Datensatz muss Impact auf abhängige Feature-Pipelines ausweisen (betroffene Modelle, verzögerte Runs).
- Post-Incident-Review aktualisiert Contract- oder DQ-Regeln, damit derselbe Fehler reproduzierbar verhindert wird.
Designprinzipien für Wiederverwendbarkeit
- Stabile Business-Keys und dokumentierte Semantik.
- Zeitbezug (
as_of) in jedem relevanten Dataset. - Einheitliche Metadatenfelder über alle Domänen.
- Konsistente Referenzen auf Glossary-Begriffe und Traceability.
Siehe auch: Sources, Feature Store, Quarantine, Glossary, Traceability Matrix.