Zum Hauptinhalt springen

Sources

Zweck

Diese Seite definiert, wie externe und interne Quelldaten als vertraglich geregelte Eingänge in die ML-Plattform übernommen werden. Fokus sind Wiederverwendbarkeit (einheitliche Intake-Standards) und Auditierbarkeit (nachvollziehbare Herkunft, Version, Freigabe).

Datenvertrag pro Quelle (Pflicht)

Jede neue Quelle wird erst produktiv genutzt, wenn ein Data Contract mit folgenden Mindestfeldern vorliegt:

FeldBeschreibungBeispiel
source_idEindeutiger technischer Schlüssel der Quelleext.marketdata.vendor-x.eod
ownerVerantwortliche Rolle inkl. VertretungData Owner + Backup
schemaVersioniertes Feldschema inkl. Typen und Nullabilityschema_version: 3
freshness_sloErwartete Aktualität inkl. ToleranzfensterT+0 bis 18:00 CET
dq_rulesetReferenz auf DQ-Regeln und Schwellwertedq/source_vendor_x_v2
incident_policyTrigger für Incident-Erstellung und Severity-MappingP1 bei >20% Missing

Versionierung und Reproduzierbarkeit

  • Jede Lieferung erhält eine unveränderliche run_id und ingestion_timestamp.
  • Schemaänderungen erfolgen ausschliesslich über semantische Versionierung (major.minor.patch) mit dokumentiertem Change-Impact.
  • Reprocessing nutzt immer einen fixierten Daten-Snapshot (Quelle + Schema-Version + Load-Zeitpunkt).
  • Korrekturen werden append-only erfasst; Überschreiben historischer Rohdaten ist nicht zulässig.

DQ-Übergabe an Warehouse/Downstream

Der Übergabepunkt von Sources in den nächsten Verarbeitungsschritt ist formalisiert:

  1. Input: Rohdaten + Data Contract + erwartetes DQ-Regelset.
  2. DQ-Ausführung: Vollständigkeit, Schema-Compliance, Zeitkonsistenz, Duplikate.
  3. Entscheidung:
    • Pass → Freigabe an Warehouse-Ingestion,
    • Fail → Quarantine + Incident/Ticket.
  4. Evidenz: DQ-Report, Rule-Failures, Freigabeentscheidung, verantwortliche Rolle.

Incident-Verknüpfung

  • Jeder DQ-Fail mit Severity high/critical erzeugt automatisiert ein Incident-Artefakt mit Referenz auf source_id, run_id und betroffene Felder.
  • Incident-ID wird im DQ-Report und im Metadatenkatalog rückverlinkt.
  • Runbooks müssen je Quelle den Eskalationspfad enthalten: Data Owner → Data Engineering Lead → Incident Manager.

Mindestinhalte je Quellen-Dokumentation

  • Zweckbindung und erlaubte Nutzung.
  • Zugriffsklassen und Entitlement-Hinweise.
  • Konkretes Contract-Schema inkl. Version.
  • DQ-Regeln mit Schwellenwerten.
  • Incident-Trigger und Eskalationsweg.

Siehe auch: Warehouse, Quarantine, Glossary, Traceability Matrix.