Zum Hauptinhalt springen

Monitoring

Kurzzusammenfassung

  • Monitoring ist das verbindliche Control-Framework für Daten-, Modell- und Betriebsrisiken im Live-Betrieb.
  • Alle Metrikfamilien haben feste Frequenzen, klare Owner und dokumentierte Eskalationspfade.
  • Einheitliche Mindestmetriken reduzieren Blind Spots und beschleunigen Incident-Reaktion.
  • Das Framework liefert die operative Evidenz für ServiceTask_Monitor und nachgelagerte Alerts/Drift-Entscheide.

Ziel

Business-Nutzen: Das Monitoring-Framework stellt sicher, dass Qualitäts-, Stabilitäts- und Verfügbarkeitsrisiken früh erkannt und in reproduzierbare Gegenmassnahmen überführt werden.

Verbindliche Metrikfamilien

MetrikfamiliePflichtmetriken (Mindeststandard)FrequenzPrimary OwnerSecondary Owner
DatenFreshness-Lag, Vollständigkeit (%), Schema-Drift, Null-/Outlier-Rateje Pipeline-Run + täglicher Summary-CheckData EngineeringData Owner Fachdomäne
ModellPrimäre Zielmetrik (z. B. Precision/Recall/IR), Kalibrierung, Fehlersegmentierung, Inferenz-Driftindikatorstündlich Aggregat + täglicher Performance-ReviewMLOpsModel Owner
Betriebp95/p99-Latenz, Error Rate, Throughput, Availability/SLO, Queue-Lagkontinuierlich (1-5 Min) + SchichtübergabePlatform OpsIncident Manager

Ablauf

SchrittMechanikErgebnis
Signale erfassenTelemetrie aus Pipelines, Serving, Feature Store, ModellmonitoringKonsolidierte Zeitreihen je Metrikfamilie
Baselines vergleichenIst-Werte gegen SLOs, historische Baseline und Release-Baseline prüfenAbweichung als Warnung/Incident klassifiziert
Massnahmen auslösenAlerting, Incident-Runbook, ggf. Drift-Deep-Dive oder Retrain-PrüfungKontrollierte Reaktion mit dokumentierter Ownership

Kontrollen

Governance- und Risiko-Aspekte

  • Für jede Pflichtmetrik sind Messmethode, Frequenz und Owner versioniert dokumentiert.
  • Änderungen an Schwellenwerten erfolgen nur per Change-Record mit Begründung und Freigabe.
  • Monitoring-Entscheide sind mit Alerting, Drift-Analyse und Decision Logging durchgängig verknüpft.

Operative Checks

CheckMonitoringVerantwortlichEskalation
Daten-Mindestset vollständigje Run automatisiert + tägliche manuelle PlausibilisierungData EngineeringData Owner → Incident Channel
Modell-Mindestset stabilstündlicher Trendcheck + täglicher ReviewMLOps + Model OwnerML Lead → Governance Board
Betriebs-Mindestset SLO-konform1-5 Min Metrikscan + 24/7 On-CallPlatform OpsIncident Commander

Entscheidung

  • Alle drei Metrikfamilien (Daten, Modell, Betrieb) sind mit Pflichtmetriken, Frequenz und Owner hinterlegt.
  • Für jede Pflichtmetrik existieren Schwellwerte und ein verlinktes Runbook.
  • Wiederholte Grenzwertverletzungen führen zu dokumentierter Ursachenanalyse und Massnahmenplan.

BPMN-Detailansicht

⋮⋮⋮

BPMN-Kontext

  • IDs: ServiceTask_Monitor, Gateway_Retrain
  • Input-Bezug: Laufende Betriebs-, Drift- und Performance-Metriken je Metrikfamilie.
  • Entscheidungsbezug: Monitoring bewertet Schwellwerte und liefert Trigger für Gateway_Retrain.
  • Output-Bezug: Priorisierte Alerts, Drift-Tickets und evidenzbasierte Entscheidungsgrundlage.