Zum Hauptinhalt springen

Incident Management

Kurzzusammenfassung

  • Incident Management verbindet Prefect-Failure-States mit dem operativen Störungsprozess.
  • Business-Nutzen: schnellere Entstörung bei transparentem Impact auf Portfolio- und Modellprozesse.
  • BPMN-Leitpfad: Task Create incident → Gateway Severity confirmed? → Outcome Owned remediation.
  • Betriebsregel: Kritische Failure-States erzeugen automatisch Tickets mit vollständigem Laufkontext.

Ziel

Jeder relevante Flow-Fehler wird priorisiert, einem zuständigen Team übergeben und bis RCA/Prävention nachvollziehbar geschlossen.

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Detect failed statePrefect meldet Failed/Crash/TimedOut/LateArtefakt: State Event; Responsible: Platform Ops
Task: Create incident payloadDeployment, Run-ID, Logs, Retry-Verlauf, betroffene Datasets/Modelle anhängenArtefakt: Incident Ticket; Responsible: Incident Bot
Gateway: Severity confirmed?Priorisierung nach Business-Impact (EOD verzögert, Scoring-Ausfall etc.)Nein: manuelle Triage; Accountable: Incident Manager
Outcome: Handover + remediationOwnership, ETA, Updates, RCA-Link verpflichtendArtefakt: Handover Record

Kontrollen

Governance- und Risiko-Aspekte

  • Incident-Payload enthält keine unmaskierten sensitiven Daten.
  • Für P1/P2 ist Kommunikations- und Update-Takt definiert.
  • Abschluss nur mit RCA + Präventionsmassnahme.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Ticket-Erstellung nach kritischem Failure≤ 5 minPlatform Ops> 10 min: On-Call Lead
Ownership-Bestätigung durch zuständiges Team≤ 15 minIncident Manager> 30 min: Head of Ops
RCA-Abschluss für P1/P2≤ 2 ArbeitstageOwning Team> 2 Tage: Governance Review

Entscheidung

  • Ticket enthält vollständigen technischen und fachlichen Kontext.
  • Severity und Ownership sind bestätigt.
  • RCA und Präventionsmassnahme sind dokumentiert.

Minimales Incident-Datenmodell

Ein Incident aus Prefect-Läufen muss mindestens folgende Felder enthalten:

FeldBeschreibungBeispielPflicht
run_idEindeutige Prefect Run-ID zur technischen Nachverfolgungflow-run/2f7...Ja
deployment_idDeployment-Referenz für Version, Schedule und Ownershipdeployment/9ab...Ja
state_historyZeitliche Folge relevanter States inkl. Timestamps und Reason CodesScheduled → Late → Running → FailedJa
correlated_assetsBetroffene fachliche Artefakte (Datasets, Feature Views, Modelle, Dashboards)dataset:prices_eod_v4Ja
business_impactFachliche Auswirkung inkl. Kritikalität, SLA-/Deadline-Risiko, betroffene ProzesseEOD-Report verspätet, P2Ja

Mindestanforderungen an die Modellierung

  • state_history enthält mindestens den ersten und letzten Zustand sowie alle Failure-/Deferral-Übergänge.
  • correlated_assets nutzt stabile Asset-IDs statt Freitextnamen, damit automatisches Routing möglich ist.
  • business_impact enthält Severity, betroffene Stakeholder und einen ETA-/Mitigationshinweis.
  • Alle Felder müssen im Ticket maschinenlesbar (strukturierte Payload) und menschlich lesbar vorliegen.

Beispiel-Payload (kompakt)

{
"run_id": "flow-run/2f7c...",
"deployment_id": "deployment/9ab1...",
"state_history": [
{"state": "Scheduled", "ts": "2026-02-10T21:00:00Z"},
{"state": "Late", "ts": "2026-02-10T21:15:00Z", "reason": "capacity_limit"},
{"state": "Running", "ts": "2026-02-10T21:22:00Z"},
{"state": "Failed", "ts": "2026-02-10T21:24:31Z", "reason": "data_contract_violation"}
],
"correlated_assets": [
"dataset:prices_eod_v4",
"feature-view:alpha_signals_v2",
"model:allocation_xgb_v17"
],
"business_impact": {
"severity": "P2",
"impact": "EOD scoring delayed",
"deadline_at_risk": "2026-02-10T22:00:00Z"
}
}

Zweck

Automatische Erstellung und Nachverfolgung von Incidents bei DQ-Failures oder Prozessabweichungen.

BPMN-Detailansicht

⋮⋮⋮

BPMN-Kontext

  • IDs: ServiceTask_CreateIncident
  • Input-Bezug: Fehler- oder Gate-Verletzungsereignis mit Severity und Kontext.
  • Entscheidungsbezug: Priorisierung und Eskalationspfad entscheiden Incident-Level und Ownership.
  • Output-Bezug: Ticket/Incident mit SLA, Owner und Nachverfolgung bis Abschluss.

RACI

AktivitätResponsibleAccountableConsultedInformed
Incident automatisch erzeugenPlatform OpsPlatform OwnerData EngineeringML Team
Priorisierung / RoutingIncident ManagerHead of OpsData Owner, RiskStakeholder
Abschluss & RCA-DokumentationZuständiges TeamTeam LeadGovernancePortfolio Management

Ticket-Template

  • Incident-ID, Umgebung, betroffener Flow
  • Run-ID, Dataset-/Model-Versionen
  • Fehlerbild und erste Hypothese
  • Impact (z. B. verzögertes Scoring)
  • Sofortmassnahmen + ETA
  • Link zu Logs, DQ-Report, Quarantine-Record

Beispiel

Bei DQ-Fail wird ein P2-Ticket erzeugt, automatisch dem Data-Steward zugewiesen und mit der Quarantine-ID verknüpft.

Mindestinhalt des Tickets

  • betroffener Flow und Task
  • Run-ID, Dataset-ID, Modell-/Feature-Version
  • erste Fehlerdiagnose
  • Link zu Logs, DQ-Report und Quarantine-Datensatz