Zum Hauptinhalt springen

Data Quality

Kurzzusammenfassung

  • Das DQ-Gate steuert, ob Daten in Feature-Training, Backtests und Scoring eingehen dürfen.
  • Business-Nutzen: stabilere Modellqualität und weniger Fehlalarme im Betrieb.
  • BPMN-Leitpfad: Task Execute DQ suite → Gateway Pass/Warn/Fail → Outcome Release/Flag/Quarantine.
  • Gate-Logik: DQ-Fail blockiert Gate B (Pilot Ready) automatisch.

Ziel

Pro Dataset ist der aktuelle DQ-Status inkl. Regelverletzung, Severity und Verantwortlichkeit nachvollziehbar hinterlegt.

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Execute DQ suiteChecks auf Schema, Vollständigkeit, Freshness, Outlier/Domain-ConstraintsArtefakt: dq_report.json; Responsible: Data Engineering
Task: Persist DQ statusStatus (pass/warn/fail) an Catalog-Entity + Partition schreibenArtefakt: DQ-Stamp + Timestamp; Responsible: Data Steward
Gateway: Threshold met?Domainspezifische Limits (z. B. Missing-Rate, Delay) auswertenFail: Quarantine + Incident; Accountable: Data Owner
Outcome: Release/Flag/QuarantineVeröffentlichung, Warnmarkierung oder IsolierungArtefakt: Release-Decision

DQ-Regeln verknüpft mit Gateway-Outcomes

RegelklasseBeispielregelPASSWARNFAILOVERRIDE
SchemaPflichtspalten vorhanden, Datentypen korrekt100 % erfülltnicht kritisch abweichend (z. B. neue optionale Spalte)Pflichtspalte fehlt oder Typbruch kritischnur mit Data-Owner + Platform-Lead Freigabe, max. 24 h
VollständigkeitMissing-Rate pro kritischem Feld≤ 0.5 %> 0.5 % bis 2 %> 2 %nur für nicht-kritische Consumer, befristet
FreshnessDelay ggü. SLA≤ SLAbis +30 min> +30 minnur bei dokumentiertem Upstream-Incident
Referenz-/Domainkonsistenzgültige Identifier/Range≥ 99.9 %99.0–99.9 %< 99.0 %nicht zulässig bei regulatorischen Feldern

Incident-Pfade je Outcome

Gateway-OutcomeOperative WirkungIncident-PfadEskalation
PassRelease für nachgelagerte Nutzungkein Incident, nur Audit-Eventn/a
WarnRelease mit Flag und AblaufdatumLow/P3 Incident + Massnahmenplan innerhalb 1 Arbeitstagbei > 3 Warns/7 Tage: Governance Board
FailHard Stop, QuarantineP2/P1 Incident innerhalb 10 min, Root-Cause-Task verpflichtendIncident Manager → Head of Domain
OverrideZeitlich begrenzte AusnahmefreigabePflicht: verlinktes Incident + Risk Acceptance + Enddatumautomatisches Re-Approval nach 24 h

Override-Policy (formal)

  • Ein Override darf nur erteilt werden, wenn ein aktiver Incident existiert und ein Workaround dokumentiert ist.
  • Freigabekette: Data Owner (Accountable) + Incident Manager (Co-Approval).
  • Overrides sind auf einzelne Datasets/Partitionen begrenzt und nicht vererbbar.
  • Nach Ablauf erfolgt automatische Rückkehr zu warn oder fail, sofern keine neue Entscheidung dokumentiert ist.

Kontrollen

Governance- und Risiko-Aspekte

  • DQ-Regelsätze sind versioniert; Änderungen brauchen fachliche Freigabe.
  • Warnfreigaben sind zeitlich befristet und benötigen Risikoakzeptanz.
  • Fail-Status erzeugt zwingend Incident-Link.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Ausführung Pflichtregeln je produktiver Partition100 %Data Engineeringfehlend: Hard Stop
Freshness-Verzug EOD-Daten≤ 30 min gegen SLAData Owner> 60 min: P2 Incident
Zeit bis Incident-Erstellung bei Fail≤ 10 minPlatform Ops> 15 min: Incident Manager

Entscheidung

  • DQ-Status ist aktuell, versioniert und verlinkt.
  • Gateway-Outcome ist fachlich freigegeben.
  • Warn/Fail/Override-Fälle besitzen Massnahmen- und Eskalationsplan.
⋮⋮⋮

Quality Gates (BPMN: CallActivity)

  • Schema-Konformität
  • Nullwert-/Vollständigkeitsregeln
  • Referenzdaten- und Identifier-Konsistenz
  • Zeitliche Plausibilität / Freshness

Gate-Ergebnisse

  • Pass: Veröffentlichung in Curated/Feature Layer
  • Warn: Veröffentlichung mit Flag + Eskalation
  • Fail: Hard Stop, Incident und Nacharbeit
  • Override: befristete Ausnahme unter Risikoakzeptanz

BPMN-Kontext

  • IDs: CallActivity_QualityGate, Gateway_DQDecision
  • Input-Bezug: DQ-Suite-Ergebnisse (pass/warn/fail) inkl. Severity und Regelversion.
  • Entscheidungsbezug: Gateway_DQDecision entscheidet Release, Warn-Flag oder Quarantäne; Gate-Standards sind zentral dokumentiert in /docs/research-risk/acceptance-criteria.
  • Output-Bezug: Freigabe in Downstream-Pipeline oder Übergabe an ServiceTask_Quarantine/Incident.