Zum Hauptinhalt springen

Label Construction

Zweck

Diese Seite beschreibt die versionierte Konstruktion von Trainings- und Backtesting-Labels. Ziel ist eine wiederverwendbare, leakage-freie Target-Logik mit klaren Übergaben an Training und Governance.

BPMN-Detailansicht

⋮⋮⋮

BPMN-Kontext

  • IDs: ScriptTask_LabelConstruction
  • Input-Bezug: Feature-Snapshots, Label-Regeln, Zeitfenster und Ausschlusslisten.
  • Entscheidungsbezug: Leakage- und Plausibilitätsentscheidung vor Freigabe.
  • Output-Bezug: Versionierter Label-Datensatz als Input für CallActivity_TrainHPO.

Label Contract (Pflicht)

Jede Label-Definition wird als Contract dokumentiert und versioniert:

FeldBeschreibungBeispiel
label_idEindeutige Kennung der Label-Logikequity.forward_return_5d
label_versionSemVer für Logik/Parameter2.1.0
prediction_horizonZielhorizont inkl. ZeitzoneT+5, CET
cutoff_policyErlaubte Daten bis StichtagKeine Daten nach 16:00 CET
exclusion_rulesAusschlüsse (Events, illiquide Titel, etc.)Corporate Actions Exclude
acceptance_testsMessbare QualitätskriterienCoverage ≥ 95%, Leakage = 0

Versionierung und Change-Disziplin

  • Jede Änderung an Berechnung, Parametern oder Ausschlusslogik erhöht label_version.
  • Major-Versionen erfordern explizite Freigabe durch Model Owner und Risk.
  • Trainingsläufe referenzieren immer label_id + label_version + Input-Feature-Version.
  • Historische Label-Versionen bleiben unverändert archiviert.

DQ-Übergabe an Training

  1. Label-Snapshot erzeugen und gegen Contract validieren.
  2. Leakage-Check, Coverage-Check und Klassengleichgewicht messen.
  3. Übergabe an Training nur bei bestandenem Abnahmeset.
  4. Ergebnis als Evidence-Record (Metriken + verantwortliche Freigabe) speichern.

Incident-Verknüpfung

  • Bei Leakage-Fund oder kritischer Coverage-Abweichung wird ein Incident erstellt.
  • Incident referenziert label_id, label_version, betroffene Trainingsruns und erwarteten Business-Impact.
  • Re-Training bleibt blockiert, bis Ursache behoben und neue Label-Version freigegeben ist.

RACI

AktivitätResponsibleAccountableConsultedInformed
Target-Definition je StrategieQuant ResearchHead of ResearchRisk, Data StewardPortfolio Management
Leakage-Checks & Time-AlignmentML EngineerML LeadQuant ResearchGovernance
Freigabe Label-SpezifikationQuant ResearchModel OwnerComplianceStakeholder

Siehe auch: Feature Store, Backtesting, Glossary, Traceability Matrix.