Zum Hauptinhalt springen

Experiments

Kurzzusammenfassung

  • Experiments steuern Hypothesen, HPO und Kandidatenauswahl für Investment-Modelle.
  • Business-Nutzen: schnellere Iteration bei belastbarer Vergleichbarkeit.
  • BPMN-Leitpfad: Task Run experiment series → Gateway Target KPI reached? → Outcome Candidate selected/iterated.
  • Qualitätsregel: Nur Runs mit vollständigem Metadaten-Set dürfen Kandidatenstatus erhalten.

Ziel

Jede Experimentserie liefert reproduzierbare Run-Metadaten, nachvollziehbare KPI-Vergleiche und einen sauber begründeten Candidate-Run.

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Define experiment charterHypothese, Primary KPI, Guardrails, Dataset-Snapshot festlegenArtefakt: Experiment Charter; Responsible: Data Scientist
Task: Execute experiment runsHPO/Varianten laufen mit vollständigem MLflow-LoggingArtefakt: Run-Set + Artifacts; Responsible: ML Engineer
Gateway: Target KPI reached?Vergleich gegen Baseline inkl. Risiko-/StabilitätsgrenzenNein: nächste Iteration; Accountable: ML Lead
Outcome: Candidate selectedBest-Run für Registry nominiertArtefakt: Candidate Decision Record

Kontrollen

Governance- und Risiko-Aspekte

  • Candidate muss Datenversion, Feature-Version und Code-SHA referenzieren.
  • Experimente mit eingeschränkten Daten benötigen Purpose-Freigabe.
  • Nicht reproduzierbare Runs sind für Registry gesperrt.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Pflichtmetadaten je Run vollständig100 %ML EngineerCandidate-Block
KPI-Verbesserung ggü. Baseline≥ +2 % oder dokumentierte AusnahmeModel OwnerUnterschreitung: Hold
Zeit bis Kandidatenreview≤ 1 ArbeitstagML Lead> 24 h: Product Escalation

Entscheidung

  • Candidate erfüllt KPI- und Guardrail-Anforderungen.
  • Run-Metadaten sind vollständig und reproduzierbar.
  • Übergabe an Registry ist inklusive Begründung dokumentiert.
⋮⋮⋮

Experiment-Setup

  • klare Hypothese und Zielmetrik
  • definierter Datenschnitt inkl. Zeitraum
  • reproduzierbare Parameter und Seed-Konfiguration

Iterationen

Jede Iteration dokumentiert Unterschiede in Features, Hyperparametern und Ergebnissen.

Verbindliche Experiment-Designregeln

Folgende Designregeln sind für jede Experimentserie verpflichtend und vor Kandidatennominierung zu prüfen.

RegelblockPflichtstandardPrüfbarkeit
BaselineVor Start ist genau eine aktive Baseline mit fixem Datenschnitt, Feature-Set und KPI-Definition zu deklarieren.Baseline-Run-ID im Charter + Run-Tags vorhanden
VergleichshypotheseJede Variante hat eine falsifizierbare Hypothese im Format Wenn <Änderung>, dann <KPI-Effekt>, weil <Mechanismus>.Charter-Review (vollständiger Hypothesensatz)
Stop-KriterienVorab definierte Stop-Regeln für Erfolg, Misserfolg und Abbruch (z. B. max. Iterationen, min. Effektgrösse, Guardrail-Verletzung).Gate-Protokoll mit Triggergrund
Leakage-GuardsZeitliche, feature-seitige und label-bezogene Leakage-Checks sind zwingend (train < validation < test, keine Zukunftsfeatures).Automatischer Leakage-Report + Sign-off

Mindest-Stop-Kriterien (Default)

  • Success: primary_kpi verbessert sich um mindestens +2 % gegenüber Baseline und Guardrails bleiben im Grenzwert.
  • Fail: Nach 3 Iterationen keine Verbesserung > +0,5 % oder Stabilitätsmetrik verschlechtert sich.
  • Abort: Jede bestätigte Leakage-Verletzung oder fehlende Datenrepräsentativität.

Leakage-Guard-Checkliste

  • Zeitliche Trennung von Train/Validation/Test ist dokumentiert.
  • Feature-Pipeline enthält keinen Zugriff auf Ziel- oder Zukunftsinformation.
  • Label-Generierung ist unabhängig von späteren Ereignissen.
  • Point-in-time Join-Logik ist für alle externen Features nachgewiesen.

Einheitliches Decision-Log-Feldset

Experimententscheidungen (candidate, hold, reject) müssen das standardisierte Feldset gemäss Decision Logging verwenden.

FeldPflichtBeschreibung
decision_idJaEindeutige Entscheidungs-ID
decision_timestampJaUTC-Zeitstempel
decision_outcomeJaaccept, reject, override
decision_rationaleJaBegründung inkl. Hypothesenbezug
baseline_run_idJaReferenz auf aktive Baseline
candidate_run_idJaReferenz auf ausgewählten Kandidaten
leakage_report_refJaLink auf Leakage-Prüfbericht
approver_roleJaRolle des Entscheiders
artifact_linksJaEvidenzlinks (Reports, Plots, Notebook)
exception_expiryBedingtPflicht bei Override/temporärer Ausnahme

BPMN-Kontext

  • IDs: CallActivity_TrainHPO
  • Input-Bezug: Trainingsdatensatz, Hyperparameterraum und Experiment-Setup.
  • Entscheidungsbezug: Auswahlentscheidung für bestes Modell gemäss Zielmetrik und Risikoauflagen.
  • Output-Bezug: Registrierte Modellartefakte und Metriken für Backtesting/Promotion.