Zum Hauptinhalt springen

Alerts

Kurzzusammenfassung

  • Alerting operationalisiert Monitoring- und Drift-Signale in verbindliche Reaktionsklassen.
  • Severity, Routing und Triage-Zeiten sind standardisiert und teamübergreifend abgestimmt.
  • Einheitliche Abschlusskriterien verhindern „Alert geschlossen ohne Nachweis“.
  • Alerts bilden die operative Brücke zwischen Erkennung, Incident-Handling und Governance.

Ziel

Business-Nutzen: Ein klarer Alert-Standard senkt Mean Time To Detect/Resolve (MTTD/MTTR), reduziert Fehlroutings und stellt belastbare Abschlussnachweise sicher.

Severity-Klassen und Triage-SLAs

SeverityTypisches SignalRoutingTriage-Zeit (max.)
SEV-1 KritischProduktionsausfall, massiver Qualitätsverlust, Guardrail-VerstossSofort an On-Call, Incident Commander, ML Lead, Risk On-Call15 Minuten
SEV-2 HochPersistente KPI-Degradation, kritische Drift-WarnungOn-Call + zuständiger Service-/Model-Owner60 Minuten
SEV-3 MittelEinzelne Grenzwertverletzung ohne akuten Business-Impactzuständiges Produkt-/Plattform-Team4 Stunden
SEV-4 NiedrigTrendhinweis, geringe Abweichung, KapazitätsfrühwarnungBacklog-Queue + Team-Channel1 Arbeitstag

Routing-Regeln (verbindlich)

Alert-TypPrimary RouteSecondary RouteEskalation
Datenqualität/FreshnessData Engineering On-CallData OwnerIncident Commander bei SEV-1/2
Modellqualität/DriftMLOps On-CallModel Owner + ML LeadGovernance Board bei wiederholtem SEV-2
Plattform/SLOPlatform Ops On-CallService OwnerIncident Commander
Compliance/AuditierbarkeitRisk OpsCompliance LeadGovernance Board

Ablauf

SchrittMechanikErgebnis
KlassifizierenAlert-Regel mappt Signal auf Severity + Alert-TypEinheitliches Prioritätsniveau
RoutenAutomatisches Paging und Ticketing nach Routing-MatrixZuständigkeit innerhalb SLA geklärt
TriagierenOwner bewertet Impact, Ursache, ScopeIncident-/Mitigation-Plan gestartet
AbschliessenNachweis gegen Abschlusskriterien prüfenAuditierbar geschlossener Alert

Abschlusskriterien (Pflicht)

Ein Alert darf nur geschlossen werden, wenn alle Punkte erfüllt sind:

  1. Root Cause dokumentiert (oder begründete „unknown cause“ mit Folgeaktion).
  2. Gegenmassnahme umgesetzt und Verantwortliche benannt.
  3. Rückkehr in Kontrollband über mindestens ein definiertes Beobachtungsfenster bestätigt.
  4. Verlinkte Evidenz (Dashboard, Ticket, ggf. Decision Record) vorhanden.
  5. Post-Incident-Learnings bei SEV-1/2 erfasst und terminiert.

Kontrollen

Governance- und Risiko-Aspekte

  • Severity-Zuordnung und Triage-SLAs sind für alle Alert-Typen verbindlich.
  • Jede SEV-1/SEV-2-Meldung wird im Incident-Management und Governance-Reporting geführt.
  • Wiederkehrende Alerts triggern Trendanalyse und Regel-Nachschärfung.

Operative Checks

CheckMonitoringVerantwortlichEskalation
SLA-Einhaltung Triagekontinuierlich, wöchentlicher SLA-ReportIncident ManagerHead of Operations
Routing-Korrektheitmonatlicher Sample-ReviewPlatform Ops + MLOpsGovernance Board
Abschlusskriterien erfülltPflichtprüfung vor CloseAlert OwnerRisk Ops bei Audit-Lücken

Entscheidung

  • Severity und Routing wurden regelkonform gesetzt.
  • Triage erfolgte innerhalb der SLA.
  • Abschlusskriterien sind vollständig nachweisbar erfüllt.

BPMN-Kontext

  • IDs: ServiceTask_Monitor, Gateway_Retrain
  • Input-Bezug: Grenzwertverletzungen aus Monitoring und Drift-Analyse.
  • Entscheidungsbezug: Alerts steuern Priorität und Eskalation bis zur Massnahmeentscheidung.
  • Output-Bezug: Incident-Tickets, Mitigation-Aktionen und ggf. Retrain-Vorlage.