Zentrale Konzepte
Kurzzusammenfassung
- Diese Seite definiert die fünf verbindlichen Kernbegriffe für alle Prozessseiten und BPMN-Verknüpfungen.
- Business-Nutzen: einheitliche Sprache zwischen Fachbereich, Data/ML-Engineering, Governance und Operations.
- Prozess-Nutzen: jeder Begriff ist an klare Artefakte (OpenMetadata, MLflow, Prefect) und BPMN-Knotenklassen gebunden.
- Kontroll-Nutzen: Pflichtmetadaten und Anti-Patterns verhindern uneinheitliche Freigaben und Audit-Lücken.
Glossar-Referenz (kanonische Begriffe)
Diese Seite verwendet ausschliesslich die kanonischen Begriffe aus dem Glossary: Signal, Feature, Model, Data Product, Promotion, Data Pipeline, DQ, MLflow, Prefect, OpenMetadata.
Verbindliche Kernbegriffe
1) Signal
Fachliche Definition
Ein Signal ist eine zeitbezogene, fachlich interpretierbare Aussage mit Entscheidungsrelevanz (z. B. Risikoanstieg, Trendbruch, Qualitätswarnung), die als Input für Priorisierung, Selektion oder Eskalation dient.
Technische Repräsentation im Stack
- OpenMetadata-Entity:
Table/Topicinkl.signal_type,domain,freshness_slaals Tags/Properties. - MLflow: Run-Artefakt (
signal_report.json) mit zugehörigen Metriken und Datenreferenzen. - Prefect: Flow-Task-Output (
signal_payload) inkl. Run-ID und Timestamp.
Minimale Pflichtmetadaten
signal_id(stabil, eindeutig)event_timeundas_of_timesource_dataset+ Version/Partitionowner(fachlich) undproducer(technisch)quality_status(passed,warning,failed)
Typische Anti-Patterns
- Signal ohne eindeutigen Zeitbezug oder ohne
as_of_time. - Fachliche Bedeutung nur im Code, nicht in Metadaten dokumentiert.
- Signal wird direkt als Modellfreigabe interpretiert (Semantik-Verwechslung).
BPMN-Knotenklassen & zugehörige Seiten
- Task: Erzeugung/Anreicherung im Pipeline-Schritt (
/docs/orchestration-prefect/flows,/docs/data-catalog-openmetadata/ingestion). - Gateway: Plausibilitäts- oder Qualitätsentscheidung (
/docs/data-catalog-openmetadata/data-quality,/docs/data/quarantine). - User Task: Fachliche Prüfung bei Grenzfällen (
/docs/research-risk/manual-data-review). - End Event: Signal veröffentlicht oder verworfen (
/docs/consumption/publish-dashboard,/docs/observability/alerts).
2) Feature
Fachliche Definition
Ein Feature ist eine reproduzierbar berechnete, modellierbare Eingangsvariable mit klarer Herleitung, Versionierung und Qualitätsbewertung.
Technische Repräsentation im Stack
- OpenMetadata-Entity:
Table/Viewim Feature-Store-Kontext inkl. Lineage zu Rohdaten und Labels. - MLflow: Run-Parameter/Tags für
feature_view,feature_set_version, optional Feature-Importance-Artefakte. - Prefect: Materialisierungs-Artefakt aus Feature-Flow (z. B.
feature_batch.parquet+ DQ-Report).
Minimale Pflichtmetadaten
feature_nameundfeature_versionentity_keyundjoin_keycalculation_logic_ref(Code/SQL-Referenz)freshness+valid_from/valid_todq_statusund letzter DQ-Check-Zeitpunkt
Typische Anti-Patterns
- Leakage durch Nutzung von Zukunftsinformationen.
- Unversionierte Feature-Definitionen („silent changes“).
- DQ-Status fehlt, obwohl Feature produktiv verwendet wird.
BPMN-Knotenklassen & zugehörige Seiten
- Task: Feature-Berechnung und Materialisierung (
/docs/data/feature-store,/docs/orchestration-prefect/flows). - Gateway: DQ-Gate vor Weitergabe (
/docs/data-catalog-openmetadata/data-quality,/docs/data/quarantine). - User Task: Manuelle Freigabe bei auffälliger Distribution (
/docs/research-risk/manual-data-review). - End Event: Feature-Set als konsumierbares Artefakt bereitgestellt (
/docs/data/warehouse,/docs/consumption/api).
3) Model
Fachliche Definition
Ein Model ist eine versionierte Abbildungslogik, die aus Features eine Vorhersage, ein Ranking oder eine Entscheidungsempfehlung erzeugt.
Technische Repräsentation im Stack
- OpenMetadata-Entity:
MLModel-bezogene Dokumentation/Lineage-Verweise (mindestens Verknüpfung auf Daten- und Feature-Assets). - MLflow:
Run+ registrierteModelVersionmit Stage-Historie. - Prefect: Trainings-/Evaluations-Flow-Artefakte (
train_report,eval_report,model_uri).
Minimale Pflichtmetadaten
model_name,model_version,run_idtraining_data_refundfeature_set_version- Kernmetriken inkl. Evaluationszeitpunkt
code_sha+ Runtime/Image-Referenzmodel_owner+ Freigabestatus
Typische Anti-Patterns
- Modellversion ohne nachvollziehbare Datenreferenz.
- Registry-Transition ohne validiertes Evaluationspaket.
- Produktionseinführung ohne definierten Rollback-Kandidaten.
BPMN-Knotenklassen & zugehörige Seiten
- Task: Training, Logging, Registry-Eintrag (
/docs/ml-lifecycle-mlflow/experiments,/docs/ml-lifecycle-mlflow/tracking,/docs/ml-lifecycle-mlflow/model-registry). - Gateway: Reproduzierbarkeit/Quality-Gates (
/docs/ml-lifecycle-mlflow/tracking,/docs/research-risk/acceptance-criteria). - User Task: Formale Freigabeentscheidung (
/docs/research-risk/approval-process). - End Event: Modellversion in Ziel-Stage fixiert (
/docs/ml-lifecycle-mlflow/promotion-strategy,/docs/serving/deployment).
4) Data Product
Fachliche Definition
Ein Data Product ist ein fachlich verantwortetes, wiederverwendbares Datenangebot mit klaren Qualitätszielen, SLA und Nutzungskontext.
Technische Repräsentation im Stack
- OpenMetadata-Entity: primär
Dataset/Tablemit Ownership, Purpose, Policy, SLA, Lineage. - MLflow: Referenzierte Input-/Output-Datensätze als Run-Tags/Artefakte (Nachvollziehbarkeit, nicht Primärspeicher).
- Prefect: Publikationsartefakt eines Flows (Version, Schema, DQ-Resultat, Publish-Status).
Minimale Pflichtmetadaten
product_name+domainownerundstewardpurpose/zugelassener Nutzungskontextsla_freshnessunddq_sloaccess_policyund Klassifikation
Typische Anti-Patterns
- „Datenablage“ ohne benannten Owner als Data Product deklarieren.
- Zweckbindung fehlt oder widerspricht tatsächlicher Nutzung.
- SLA wird genannt, aber nicht überwacht.
BPMN-Knotenklassen & zugehörige Seiten
- Task: Ingestion, Katalogisierung, Publikation (
/docs/data-catalog-openmetadata/ingestion,/docs/data-catalog-openmetadata/purpose,/docs/consumption/publish-dashboard). - Gateway: Governance-/Policy-Gate (
/docs/data-catalog-openmetadata/ownership,/docs/research-risk/approval-process). - User Task: Steward-/Owner-Freigabe (
/docs/data-catalog-openmetadata/ownership). - End Event: Data Product offiziell publiziert und konsumierbar (
/docs/consumption/users,/docs/consumption/dashboard).
5) Promotion
Fachliche Definition
Promotion ist der kontrollierte Übergang einer Modellversion zwischen freigegebenen Stages (z. B. Research → Staging → Production) auf Basis dokumentierter Gates.
Technische Repräsentation im Stack
- OpenMetadata-Entity: Auditierbarer Verweis auf freigegebene Modellversion und zugehörige Datenprodukte.
- MLflow: Stage-Transition einer
ModelVersioninkl. Comment, Approver, Timestamp. - Prefect: Orchestrierter Promotion-Flow mit Gate-Checks und Deployment-Trigger.
Minimale Pflichtmetadaten
model_version+from_stage+to_stageapproval_ref(Ticket/Entscheidungsprotokoll)- Nachweise für
repro_check,dq_check,risk_check approver+ Zeitstempelrollback_version(verpflichtend für Production)
Typische Anti-Patterns
- Stage-Wechsel per Ad-hoc-Klick ohne Gate-Nachweise.
- Tracking vollständig, aber keine Registry-Transition-Dokumentation.
- Production-Promotion ohne Rückfallpfad.
BPMN-Knotenklassen & zugehörige Seiten
- Task: Candidate registrieren, Deployment vorbereiten (
/docs/ml-lifecycle-mlflow/model-registry,/docs/serving/deployment). - Gateway: Gate-Entscheidung für Transition (
/docs/ml-lifecycle-mlflow/promotion-strategy,/docs/research-risk/acceptance-criteria). - User Task: Governance-/Risk-Sign-off (
/docs/research-risk/approval-process). - End Event: Promotion abgeschlossen oder blockiert (
/docs/observability/decision-logging,/docs/orchestration-prefect/incident-management).
Abgrenzungen
Tracking vs Registry
- Tracking dokumentiert wie ein Run entstanden ist (Parameter, Metriken, Artefakte, Reproduzierbarkeit).
- Registry steuert welche Modellversion in welcher Stage eingesetzt werden darf.
- Konsequenz: vollständiges Tracking ist notwendige, aber nicht hinreichende Bedingung für Promotion.
DQ-Check vs Governance-Freigabe
- DQ-Check prüft technische/fachliche Datenqualität (Vollständigkeit, Freshness, Plausibilität).
- Governance-Freigabe bewertet Zweckbindung, Risiko, Verantwortlichkeit und Regelkonformität.
- Konsequenz: bestandener DQ-Check ersetzt keine formale Freigabeentscheidung.
Signal vs Feature
- Signal ist fachlich interpretierter Hinweis für Entscheidung oder Monitoring.
- Feature ist modelltechnische Eingangsvariable mit reproduzierbarer Berechnung.
- Konsequenz: ein Signal kann aus Features abgeleitet sein, ist aber kein automatisches Trainingsfeature.
Data Product vs Modellartefakt
- Data Product ist ein konsumierbares, dauerhaft verantwortetes Datenangebot.
- Modellartefakt ist ein technisches Ergebnis eines konkreten Runs/Versionierungsstands.
- Konsequenz: Modellartefakte sind Inputs für Betrieb, aber kein Ersatz für Data-Product-Governance.
Navigationshilfe („Wenn X unklar ist, dann Seite Y“)
- Wenn Pflichtmetadaten im Katalog unklar sind →
/docs/data-catalog-openmetadata/ingestion. - Wenn DQ-Regeln und Quarantänepfade unklar sind →
/docs/data-catalog-openmetadata/data-qualityund/docs/data/quarantine. - Wenn Feature-Herleitung oder Feature-Versionierung unklar ist →
/docs/data/feature-store. - Wenn Run-Reproduzierbarkeit unklar ist →
/docs/ml-lifecycle-mlflow/tracking. - Wenn Stage-Wechsel/Promotion-Gates unklar sind →
/docs/ml-lifecycle-mlflow/model-registryund/docs/ml-lifecycle-mlflow/promotion-strategy. - Wenn Freigabe- und Verantwortungsprozess unklar ist →
/docs/research-risk/approval-process. - Wenn BPMN-Linking-Konventionen unklar sind →
/docs/development/bpmn-linking.