Zum Hauptinhalt springen

Model Loading

Kurzzusammenfassung

  • Model Loading definiert, wie Runtime-Services produktive Modelle eindeutig auflösen.
  • Erlaubt sind nur freigegebene Registry-Stages bzw. produktive Aliase.
  • Vor Aktivierung sind Kompatibilitätschecks für Modell, Features und Schema verpflichtend.
  • Fallback-Pfade sichern den Betrieb bei Ladefehlern oder inkompatiblen Artefakten.

Zweck

Sichere, reproduzierbare Modellauflösung von Registry nach Runtime ohne stillschweigende Versionsdrifts.

Modellauflösung (Registry Stage/Alias)

Zulässige Auflösung in Prioritätsreihenfolge:

  1. Explizite Version (models:/name/42) für reproduzierbare Re-Runs.
  2. Alias (models:/name@champion) für operativen Produktivbetrieb.
  3. Stage (Production) nur wenn Alias nicht gepflegt wird.

Verbindliche Regel: Pro Umgebung (dev, staging, prod) ist genau ein aktiver produktiver Alias erlaubt.

Kompatibilitätschecks vor Laden

CheckBeschreibungFolge bei Fehler
Modell-SignaturInput-/Output-Schema kompatibel zur Serving-APIHard-Fail, kein Start
Feature-SchemaErwartete Features vollständig und typkompatibelHard-Fail, Incident
Runtime-KompatibilitätPython/Lib/Runtime-Version passt zum ArtefaktFallback auf Vorversion
Policy-StatusFreigabe, Risiko-Status und Ablaufdatum gültigLaden verweigern

Fallback-Pfade

  • Primary Failure: Laden der Zielversion schlägt fehl → letzte bekannte stabile Version (last_good).
  • Schema-Mismatch: Kein stiller Cast; Service geht in degraded und antwortet kontrolliert mit Fehlercode.
  • Registry nicht erreichbar: Read-only Cache für max. 24h; danach Fail-Closed.
  • Rollback-Anforderung: Sofortige Umschaltung auf vorherigen Alias mit Audit-Event.

Audit und Nachvollziehbarkeit

Jeder Ladevorgang erzeugt einen Eintrag mit:

  • model_ref_resolved (Version/Alias/Stage)
  • artifact_digest
  • compatibility_check_result
  • loaded_by_service und Zeitstempel
  • fallback_used inkl. Begründung

Entscheidung

  • Auflösungsstrategie (Version/Alias/Stage) pro Umgebung verbindlich dokumentiert.
  • Kompatibilitätschecks werden technisch erzwungen.
  • Fallback-Pfade getestet und auditierbar.