Zum Hauptinhalt springen

Failure Handling

Kurzzusammenfassung

  • Failure Handling definiert den standardisierten Umgang mit technischen und fachlichen Laufzeitfehlern.
  • Business-Nutzen: kürzere Recovery-Zeit und weniger Folgefehler in Downstream-Prozessen.
  • BPMN-Leitpfad: Task Classify failure → Gateway Retry allowed? → Outcome Recovered/escalated.
  • Betriebsregel: Compliance-/DQ-Hardstops umgehen automatische Retries.

Ziel

Fehler werden konsistent klassifiziert, mit passender Retry-Strategie behandelt und bei Bedarf innerhalb SLA an Incident Management übergeben.

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Classify failureFehlerkategorie (transient/permanent/data-contract/governance-block) bestimmenArtefakt: Failure Class; Responsible: Data Engineering
Task: Execute retry strategyRetry-Count, Backoff und Timeout deployment-spezifisch anwendenArtefakt: Retry Log; Responsible: Prefect Worker
Gateway: Retry allowed?Prüft Max-Retries, Hardstop-Regeln, SLA-FensterNein: Incident-Handover; Accountable: Platform Owner
Outcome: Recovered/escalatedWiederanlauf erfolgreich oder finaler Failure-StateArtefakt: Recovery Report

Kontrollen

Governance- und Risiko-Aspekte

  • DQ-Fail und Policy-Verletzung führen direkt zu Incident/Pause.
  • Retry-Änderungen sind versions- und releasepflichtig.
  • Wiederholte Fehler gleicher Signatur triggern Problem-Management.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Deployments mit dokumentierter Failure-Matrix100 %Platform Teamfehlend: Deploy-Block
Max. automatische Retries (transient)≤ 3Data Engineering> 3 nur mit Freigabe
Eskalation nach finalem Failure-State≤ 10 minPlatform Ops> 15 min: Incident Manager

Entscheidung

  • Fehlerklassifikation und Retry-Pfad sind dokumentiert.
  • Hardstop-Regeln wurden eingehalten.
  • Finale Failures wurden fristgerecht übergeben.

Strategie

  • Retries für transiente Fehler
  • Alerts bei wiederholtem Fehlschlag
  • Hard Stops bei Regelverletzungen (DQ / Compliance)

Incident-Pfad

  1. Fehlerklassifikation
  2. technische oder fachliche Eskalation
  3. Wiederanlauf oder Rollback nach Freigabe

Erweiterte Fehlertypologie mit Recovery-Strategien

FehlertypErkennungsmerkmaleZulässige Recovery-StrategieNicht zulässigEskalation
transienttemporäre Netzwerk-/Servicefehler, Rate-Limits, kurzzeitige Infrastrukturproblemebegrenzte automatische Retries mit exponentiellem Backoff + Jitter; optional Worker-Requeueunendliche Retries, manuelle Datenkorrektur ohne Evidenzbei finalem Failed an Incident Mgmt innerhalb SLA
permanentdeterministischer Code-/Konfigurationsfehler, reproduzierbar bei Wiederholungsofortiger Stop, Fix-forward oder Rollback auf letzte stabile Deployment-Versionerneute identische Retries ohne Code-/Config-Änderungdirekt an Owning Team + Incident Manager
data-contractSchema-Drift, fehlende Pflichtfelder, verletzte DQ-/Interface-ConstraintsQuarantäne des Inputs, Contract-Validation-Report, ggf. gezielter Replay nach Korrekturstilles Überspringen fehlerhafter Datensätze bei kritischen FlowsIncident inkl. Data Owner und Producer-Team
governance-blockPolicy/Compliance-Verstoss, fehlende Freigabe, gesperrtes Modell/FeatureHard Stop, manuelle Freigabe- und Ausnahmeprüfung, lückenlose Audit-Dokumentationautomatische Retries oder Umgehung von Kontrollpunktensofortige Governance-Eskalation (P1/P2 je Impact)

Zuordnung zu Prefect-State-Mustern

  • transient: oft Crashed, TimedOut, temporär Failed mit nachfolgend Retrying/Running.
  • permanent: wiederholt gleicher Failed-Signaturfingerprint ohne Änderung der Inputs.
  • data-contract: Failed mit DQ-/Schema-Reason-Code und Link auf Quarantäne-Artefakt.
  • governance-block: Cancelled/Paused/Failed mit explizitem Policy-Reason-Code.

Recovery-Entscheidungslogik (operativ)

  1. Classify first, then act: Keine Retry-Ausführung ohne dokumentierte Fehlerklasse.
  2. Retry nur für transient: Alle anderen Klassen starten direkt mit Incident- oder Governance-Handover.
  3. Evidence before restart: Wiederanlauf erst nach dokumentierter Ursache + Gegenmassnahme.
  4. State + Reason Code sind Pflicht: Jede Recovery-Entscheidung ist im Run- und Incident-Kontext nachvollziehbar.

BPMN-Kontext

  • IDs: EndEvent_RunAborted
  • Input-Bezug: Abgebrochener Run mit Fehlerkontext, Logs und Incident-Referenz.
  • Entscheidungsbezug: Entscheidung über Retry, Recovery oder endgültigen Abbruch inkl. Verantwortlichkeit.
  • Output-Bezug: Dokumentierter Endzustand EndEvent_RunAborted mit Post-Mortem und Folgeaktion.