Model Loading
Kurzzusammenfassung
- Model Loading definiert, wie Runtime-Services produktive Modelle eindeutig auflösen.
- Erlaubt sind nur freigegebene Registry-Stages bzw. produktive Aliase.
- Vor Aktivierung sind Kompatibilitätschecks für Modell, Features und Schema verpflichtend.
- Fallback-Pfade sichern den Betrieb bei Ladefehlern oder inkompatiblen Artefakten.
Zweck
Sichere, reproduzierbare Modellauflösung von Registry nach Runtime ohne stillschweigende Versionsdrifts.
Modellauflösung (Registry Stage/Alias)
Zulässige Auflösung in Prioritätsreihenfolge:
- Explizite Version (
models:/name/42) für reproduzierbare Re-Runs. - Alias (
models:/name@champion) für operativen Produktivbetrieb. - Stage (
Production) nur wenn Alias nicht gepflegt wird.
Verbindliche Regel: Pro Umgebung (dev, staging, prod) ist genau ein aktiver produktiver Alias erlaubt.
Kompatibilitätschecks vor Laden
| Check | Beschreibung | Folge bei Fehler |
|---|---|---|
| Modell-Signatur | Input-/Output-Schema kompatibel zur Serving-API | Hard-Fail, kein Start |
| Feature-Schema | Erwartete Features vollständig und typkompatibel | Hard-Fail, Incident |
| Runtime-Kompatibilität | Python/Lib/Runtime-Version passt zum Artefakt | Fallback auf Vorversion |
| Policy-Status | Freigabe, Risiko-Status und Ablaufdatum gültig | Laden verweigern |
Fallback-Pfade
- Primary Failure: Laden der Zielversion schlägt fehl → letzte bekannte stabile Version (
last_good). - Schema-Mismatch: Kein stiller Cast; Service geht in
degradedund antwortet kontrolliert mit Fehlercode. - Registry nicht erreichbar: Read-only Cache für max. 24h; danach Fail-Closed.
- Rollback-Anforderung: Sofortige Umschaltung auf vorherigen Alias mit Audit-Event.
Audit und Nachvollziehbarkeit
Jeder Ladevorgang erzeugt einen Eintrag mit:
model_ref_resolved(Version/Alias/Stage)artifact_digestcompatibility_check_resultloaded_by_serviceund Zeitstempelfallback_usedinkl. Begründung
Entscheidung
- Auflösungsstrategie (Version/Alias/Stage) pro Umgebung verbindlich dokumentiert.
- Kompatibilitätschecks werden technisch erzwungen.
- Fallback-Pfade getestet und auditierbar.