Zum Hauptinhalt springen

Scoring

Kurzzusammenfassung

  • Diese Seite definiert den produktiven Vertrag für Score-Erzeugung und Auslieferung.
  • Sie macht Input-/Output-Schemata, SLA/SLO und Fehlerpfade verbindlich.
  • Ziel ist reproduzierbares Verhalten pro Lauf inkl. Wiederanlauf ohne Datenverlust.
  • Alle Abweichungen müssen über Incident- und Audit-Referenzen nachvollziehbar sein.

Zweck

Erzeugung versionierter Signale/Forecasts auf Basis freigegebener Modelle und deterministischer Feature-Snapshots.

BPMN-Detailansicht

⋮⋮⋮

BPMN-Kontext

  • IDs: ServiceTask_Scoring
  • Input-Bezug: Produktionsmodell, Feature-Snapshot, Laufzeitkonfiguration.
  • Entscheidungsbezug: Erfolg, Retry oder Abbruch auf Basis SLA/SLO und Validierungschecks.
  • Output-Bezug: Versionierte Scoring-Outputs für Dashboard/API und nachgelagerte Entscheidungen.

Eingabe-/Ausgabe-Vertrag

Eingabe (Pflichtfelder)

FeldTypRegel
run_idstringEindeutig pro Lauf
model_refstringRegistry-URI inkl. Version/Alias
feature_snapshot_idstringReproduzierbarer Snapshot
as_of_tstimestamp (UTC)Bewertungszeitpunkt
universe_idstringZieluniversum für Scoring

Ausgabe (Pflichtfelder)

FeldTypRegel
entity_idstringBewertete Einheit
scorefloatNormalisiert gemäss Modellvertrag
score_confidencefloatOptional, falls Modell verfügbar
model_versionstringExakte Modellversion
scored_attimestamp (UTC)Erzeugungszeitpunkt
trace_idstringReferenz auf Pipeline-/Audit-Log

SLA/SLO

  • SLA (extern): Ergebnisse bis 18:45 UTC für Tageslauf verfügbar.
  • SLO (intern):
    • Laufzeit p95 ≤ 12 min.
    • Erfolgsquote ≥ 99% pro 30 Tage.
    • Datenvollständigkeit ≥ 99.5% der erwarteten Entitäten.

Fehlerbehandlung

FehlerklasseBeispielReaktion
Input-ValidierungSchemafehler, fehlender SnapshotHard-Fail, Incident eröffnen
TemporärRegistry/API Timeout, transient IOAutomatischer Retry (exponentiell)
QualitätsverletzungCoverage/KPI unter SchwellwertRun als degraded, manuelle Freigabe
SystemischCluster/Dependency-AusfallAbbruch, Rollback oder Fallback-Modell

Wiederanlaufregeln

  1. Wiederanlauf nur mit identischem run_id und unverändertem Input-Snapshot.
  2. Maximal 3 automatische Retries innerhalb von 20 Minuten.
  3. Nach 3 Fehlversuchen: Eskalation an MLOps On-Call, Status run_aborted.
  4. Idempotenzpflicht: bereits persistierte Outputs dürfen nicht doppelt publiziert werden.
  5. Nach erfolgreichem Wiederanlauf muss recovery_note im Run-Protokoll hinterlegt werden.

Entscheidung

  • Ein-/Ausgabe-Vertrag versioniert und technisch erzwungen.
  • SLA/SLO-Monitoring mit Alert-Schwellen aktiv.
  • Fehler- und Wiederanlaufregeln im Betrieb getestet.