Zum Hauptinhalt springen

Batch

Kurzzusammenfassung

  • Batch-Inferenz liefert planbare, reproduzierbare Scores für feste Entscheidungsfenster.
  • Der Betrieb basiert auf festen Daten-Snapshots, klaren Zeitfenstern und kontrollierter Wiederaufnahme.
  • SLA/SLO und Fehlerklassen sind verbindlich, um Verzögerungen transparent zu steuern.
  • Ziel ist vollständige Nachvollziehbarkeit je Lauf über technische und fachliche Evidenz.

Zweck

Regelmässige Inferenzläufe für Tages-/Wochenzyklen mit versionierten Ergebnissen für Consumption-Kanäle.

BPMN-Kontext

  • IDs: ServiceTask_Scoring
  • Input-Bezug: Zeitlich abgegrenzter Feature-Snapshot und freigegebenes Batch-Modell.
  • Entscheidungsbezug: Fortsetzen, Wiederanlauf oder Abbruch auf Basis Laufzustand und Datenqualität.
  • Output-Bezug: Vollständiger, versionierter Batch-Output mit Audit-Referenz.

Eingabe-/Ausgabe-Vertrag

Eingabe

  • batch_window_start / batch_window_end (UTC)
  • feature_snapshot_id
  • model_ref (Version/Alias)
  • expected_entity_count

Ausgabe

  • output_version (immutable)
  • coverage_ratio
  • success_count / error_count
  • output_uri
  • audit_ref

SLA/SLO

  • Batch-Start täglich 18:30 UTC.
  • Bereitstellung bis 18:45 UTC (SLA).
  • Laufzeit p95 ≤ 10 min, p99 ≤ 15 min (SLO).
  • Abweichung > 5 min erzeugt Warnung; > 15 min erzeugt Incident.

Fehlerbehandlung

  • Pre-Run-Checks fehlgeschlagen: Lauf nicht starten, Incident eröffnen.
  • Teilfehler bei Entitäten: Fehlerquote messen, fehlerhafte Entitäten quarantänen.
  • Persistenzfehler: Kein Publish, bis Konsistenzprüfung erfolgreich ist.
  • SLA-Verstoss: Status degraded_delivery, Business-Notification an Portfolio/Risk.

Wiederanlaufregeln

  1. Re-Run nur für dasselbe Zeitfenster und denselben Snapshot.
  2. Bereits erfolgreiche Entitäten werden nicht neu geschrieben (idempotentes Merge).
  3. Max. 2 vollständige Re-Runs; danach manuelle Entscheidung durch Model Owner.
  4. Jeder Re-Run benötigt Grund (retry_reason) und Referenz auf Incident-Ticket.

Entscheidung

  • Batch-Vertrag und Zeitfenster technisch validiert.
  • SLA/SLO inkl. Alerting im Monitoring aktiv.
  • Wiederanlaufregeln dokumentiert und geprobt.