Sources
Zweck
Diese Seite definiert, wie externe und interne Quelldaten als vertraglich geregelte Eingänge in die ML-Plattform übernommen werden. Fokus sind Wiederverwendbarkeit (einheitliche Intake-Standards) und Auditierbarkeit (nachvollziehbare Herkunft, Version, Freigabe).
Datenvertrag pro Quelle (Pflicht)
Jede neue Quelle wird erst produktiv genutzt, wenn ein Data Contract mit folgenden Mindestfeldern vorliegt:
| Feld | Beschreibung | Beispiel |
|---|---|---|
source_id | Eindeutiger technischer Schlüssel der Quelle | ext.marketdata.vendor-x.eod |
owner | Verantwortliche Rolle inkl. Vertretung | Data Owner + Backup |
schema | Versioniertes Feldschema inkl. Typen und Nullability | schema_version: 3 |
freshness_slo | Erwartete Aktualität inkl. Toleranzfenster | T+0 bis 18:00 CET |
dq_ruleset | Referenz auf DQ-Regeln und Schwellwerte | dq/source_vendor_x_v2 |
incident_policy | Trigger für Incident-Erstellung und Severity-Mapping | P1 bei >20% Missing |
Versionierung und Reproduzierbarkeit
- Jede Lieferung erhält eine unveränderliche
run_idundingestion_timestamp. - Schemaänderungen erfolgen ausschliesslich über semantische Versionierung (
major.minor.patch) mit dokumentiertem Change-Impact. - Reprocessing nutzt immer einen fixierten Daten-Snapshot (Quelle + Schema-Version + Load-Zeitpunkt).
- Korrekturen werden append-only erfasst; Überschreiben historischer Rohdaten ist nicht zulässig.
DQ-Übergabe an Warehouse/Downstream
Der Übergabepunkt von Sources in den nächsten Verarbeitungsschritt ist formalisiert:
- Input: Rohdaten + Data Contract + erwartetes DQ-Regelset.
- DQ-Ausführung: Vollständigkeit, Schema-Compliance, Zeitkonsistenz, Duplikate.
- Entscheidung:
- Pass → Freigabe an Warehouse-Ingestion,
- Fail → Quarantine + Incident/Ticket.
- Evidenz: DQ-Report, Rule-Failures, Freigabeentscheidung, verantwortliche Rolle.
Incident-Verknüpfung
- Jeder DQ-Fail mit Severity
high/criticalerzeugt automatisiert ein Incident-Artefakt mit Referenz aufsource_id,run_idund betroffene Felder. - Incident-ID wird im DQ-Report und im Metadatenkatalog rückverlinkt.
- Runbooks müssen je Quelle den Eskalationspfad enthalten: Data Owner → Data Engineering Lead → Incident Manager.
Mindestinhalte je Quellen-Dokumentation
- Zweckbindung und erlaubte Nutzung.
- Zugriffsklassen und Entitlement-Hinweise.
- Konkretes Contract-Schema inkl. Version.
- DQ-Regeln mit Schwellenwerten.
- Incident-Trigger und Eskalationsweg.
Siehe auch: Warehouse, Quarantine, Glossary, Traceability Matrix.