Zum Hauptinhalt springen

Tracking

Kurzzusammenfassung

  • Tracking sichert die technische und fachliche Reproduzierbarkeit jedes Trainings- und Evaluationslaufs.
  • Business-Nutzen: schnellere Ursachenanalyse und belastbare Freigabeentscheidungen.
  • BPMN-Leitpfad: Task Log run context/results → Gateway Reproducible? → Outcome Run approved/blocked.
  • Qualitätsregel: fehlende Pflichtmetadaten blockieren Registry-Transition und Promotion.

Ziel

Alle produktionsrelevanten Runs besitzen vollständige Metadaten (Daten, Code, Umgebung, Ergebnis) und einen klaren Owner.

Verbindliches Run-Schema (Pflicht)

Jeder Run mit Kandidaten-, Registry- oder Promotionsbezug muss das folgende Schema vollständig erfüllen. Fehlende Pflichtfelder führen zu blocked.

FeldgruppePflichtfelderStandard/FormatPrüfmethode
Experimentexperiment_name, experiment_id, run_name, run_id, ownereindeutige IDs, Owner als Team-Handle (team:<name>)CI-Policy + MLflow API-Check
Run Tagspurpose, model_family, risk_tier, approval_scope, code_shaTags als key/value, risk_tier ∈ {low, medium, high}Schema-Validator vor Transition
Paramsseed, train_window, feature_set_version, objective, hyperparams.*numerische/enum-Parameter typisiert; Seed verpflichtendPipeline-Unit-Check + Run-Lint
Metricsprimary_kpi, secondary_kpi.*, stability_metric, bias_metricPrimary KPI mit Richtung (higher_is_better/lower_is_better)Threshold-Check im Gate
ArtifactsModellartefakt, Eval-Report, Fehleranalyse, KonfigurationssnapshotArtefakte versioniert und unveränderlich abgelegtArtifact-Existenzcheck
Environment Fingerprintimage_digest, python_version, dependency_lock_hash, hardware_profileDigest/Hash im Run protokolliertRepro-Job vergleicht Fingerprint
Data Snapshot Referencedataset_id, dataset_snapshot_id, feature_view_id, snapshot_timestampreferenzielle Eindeutigkeit und ZeitstempelData-Lineage-Check

Blockierende Regeln:

  • Ohne code_sha, image_digest oder dataset_snapshot_id keine Registry-Übergabe.
  • Ohne seed und feature_set_version kein Reproduzierbarkeitsstatus passed.
  • Runs mit risk_tier=high benötigen zusätzlich Tag risk_review_id.

Ablauf

BPMN-SchrittMechanik (Task/Gateway/Outcome)Artefakte & Verantwortlich
Task: Log run contextParameter, Seed, Datenversion, Feature-View, Code-SHA loggenArtefakt: Run Context; Responsible: ML Engineer
Task: Log results/artifactsMetriken, Modellartefakt, Eval-Report, Konfusions-/Fehleranalysen speichernArtefakt: Result Package; Responsible: Training Pipeline
Gateway: Reproducible?Referenz-Re-Run in definierter Umgebung validierenNein: Run blockiert; Accountable: MLOps Lead
Outcome: Approve for registry inputFreigabe-Tag für Registry-Übergabe setzenArtefakt: Approval Tag

Kontrollen

Governance- und Risiko-Aspekte

  • Pflichtmetadaten werden vor jeder Promotion automatisiert geprüft.
  • Abweichungen zwischen Train- und Runtime-Image sind zu dokumentieren.
  • Jeder freigegebene Run ist einem Model Owner zugeordnet.

Messbare Akzeptanzkriterien

KriteriumGrenzwertVerantwortlichEskalation
Pflichtfelder (params,metrics,data_version,code_sha,image)100 %ML EngineerPromotion-Stop
Erfolgsquote Reproduktion Gold-Runs≥ 95 % pro SprintMLOps< 95 %: P2 Incident
Klärung fehlender Metadaten≤ 4 hModel Owner> 4 h: ML Lead

Entscheidung

  • Run ist vollständig dokumentiert und plausibilisiert.
  • Reproduzierbarkeit ist bestanden oder als Blocker dokumentiert.
  • Registry-Übergabe ist eindeutig freigegeben.

Einheitliches Decision-Log-Feldset

Für jede Freigabe-/Block-Entscheidung in Tracking ist ein Decision-Log mit folgendem Mindestfeldsatz zu erfassen (siehe Standard in Decision Logging).

FeldPflichtBeschreibung
decision_idJaEindeutige ID der Entscheidung
decision_timestampJaUTC-Zeitpunkt der Entscheidung
decision_outcomeJaaccept, reject oder override
decision_rationaleJaBegründung (frei + codiert)
model_version_refJaReferenz auf Modell-/Feature-Version
run_id_refJaReferenz auf MLflow-Run-ID
approver_roleJaRolle des Freigebenden (z. B. ML Lead, Risk)
approval_contextJaProzess-/Gate-Kontext (z. B. tracking_repro_check)
artifact_linksJaVerlinkung auf relevante Evidenz
exception_expiryBedingtPflicht bei override; Datum + Auflage

Pflichtartefakte

  • Parameter
  • Metriken
  • Modelle/Artefakte
  • Trainingsumgebung (Code-Version, Dependencies)