Batch
Kurzzusammenfassung
- Batch-Inferenz liefert planbare, reproduzierbare Scores für feste Entscheidungsfenster.
- Der Betrieb basiert auf festen Daten-Snapshots, klaren Zeitfenstern und kontrollierter Wiederaufnahme.
- SLA/SLO und Fehlerklassen sind verbindlich, um Verzögerungen transparent zu steuern.
- Ziel ist vollständige Nachvollziehbarkeit je Lauf über technische und fachliche Evidenz.
Zweck
Regelmässige Inferenzläufe für Tages-/Wochenzyklen mit versionierten Ergebnissen für Consumption-Kanäle.
BPMN-Kontext
- IDs:
ServiceTask_Scoring - Input-Bezug: Zeitlich abgegrenzter Feature-Snapshot und freigegebenes Batch-Modell.
- Entscheidungsbezug: Fortsetzen, Wiederanlauf oder Abbruch auf Basis Laufzustand und Datenqualität.
- Output-Bezug: Vollständiger, versionierter Batch-Output mit Audit-Referenz.
Eingabe-/Ausgabe-Vertrag
Eingabe
batch_window_start/batch_window_end(UTC)feature_snapshot_idmodel_ref(Version/Alias)expected_entity_count
Ausgabe
output_version(immutable)coverage_ratiosuccess_count/error_countoutput_uriaudit_ref
SLA/SLO
- Batch-Start täglich 18:30 UTC.
- Bereitstellung bis 18:45 UTC (SLA).
- Laufzeit p95 ≤ 10 min, p99 ≤ 15 min (SLO).
- Abweichung > 5 min erzeugt Warnung; > 15 min erzeugt Incident.
Fehlerbehandlung
- Pre-Run-Checks fehlgeschlagen: Lauf nicht starten, Incident eröffnen.
- Teilfehler bei Entitäten: Fehlerquote messen, fehlerhafte Entitäten quarantänen.
- Persistenzfehler: Kein Publish, bis Konsistenzprüfung erfolgreich ist.
- SLA-Verstoss: Status
degraded_delivery, Business-Notification an Portfolio/Risk.
Wiederanlaufregeln
- Re-Run nur für dasselbe Zeitfenster und denselben Snapshot.
- Bereits erfolgreiche Entitäten werden nicht neu geschrieben (idempotentes Merge).
- Max. 2 vollständige Re-Runs; danach manuelle Entscheidung durch Model Owner.
- Jeder Re-Run benötigt Grund (
retry_reason) und Referenz auf Incident-Ticket.
Entscheidung
- Batch-Vertrag und Zeitfenster technisch validiert.
- SLA/SLO inkl. Alerting im Monitoring aktiv.
- Wiederanlaufregeln dokumentiert und geprobt.