Agenten-LebenszyklusAgent Lifecycle Management

Wie werden Agenten erstellt, entwickelt und stillgelegt?How are agents created, developed, and retired?

Der vollständige Lebenszyklus von KI-Agenten: Sieben formale Zustände von Provisioning über Spezialisierung bis Retired, Modellversions-Management mit Canary Deployment, Degradationserkennung und vertrauensbasierte Autonomie-Progression. The complete lifecycle of AI agents: seven formal states from provisioning through specialization to retired, model version management with canary deployment, degradation detection, and trust-driven autonomy progression.

Zusammenfassung

Agenten sind keine statische Software. Sie werden erstellt, onboarded, spezialisiert, versioniert, auf Degradation überwacht, in Autonomiestufen befördert oder zurückgestuft und schließlich stillgelegt oder ersetzt. Diese Dimension definiert den vollständigen Agenten-Lebenszyklus: sieben formale Zustände (Provisioning, Onboarding, Active, Specialization, Under Review, Deprecated, Retired), Modellversions-Management mit Canary Deployment, Degradationserkennung über sechs Signaltypen und vertrauensbasierte Autonomie-Progression.

Schlüsselunterschiede zum menschlichen HR: Instanziierung ist billig (Sekunden statt Monate), Spezialisierung ist Konfiguration (Prompt-Edit statt Karrierewechsel), Modellwechsel sind externe Schocks (betreffen alle Agenten gleichzeitig), und Degradation ist still (Agenten melden keine Leistungseinbußen).

Kontext im VCOM-Framework

Agenten-Lebenszyklus verbindet Organisation & Rollen (Dim 01, welche Rollen existieren) mit Performance & Messung (Dim 10, Agent-Qualität bewerten), Identität & Vertrauen (Dim 04, Trust Scores und Autonomiestufen) und Governance (Dim 02, Autonomie-Policies). Wissen & Lernen (Dim 09) ist kritisch für Onboarding und Wissenserhalt bei Agenten-Transitionen. Im VSM implementiert diese Dimension System-4-Funktionalität (Adaptation) und System-5-Aspekte (Wissensstabilität trotz Agent-Austausch).

Summary

Agents are not static software. They are created, onboarded, specialized, versioned, monitored for degradation, promoted or demoted in autonomy levels, and ultimately retired or replaced. This dimension defines the complete agent lifecycle: seven formal states (Provisioning, Onboarding, Active, Specialization, Under Review, Deprecated, Retired), model version management with canary deployment, degradation detection across six signal types, and trust-driven autonomy progression.

Key differences from human HR: instantiation is cheap (seconds, not months), specialization is configuration (prompt edit, not career change), model changes are external shocks (affect all agents simultaneously), and degradation is silent (agents do not self-report capability loss).

Context within the VCOM Framework

Agent Lifecycle connects Organization & Roles (Dim 01, what roles exist) with Performance & Measurement (Dim 10, agent quality evaluation), Identity & Trust (Dim 04, trust scores and autonomy levels), and Governance (Dim 02, autonomy policies). Knowledge & Learning (Dim 09) is critical for onboarding and preserving knowledge during agent transitions. In VSM terms, this dimension implements System 4 functionality (adaptation) and System 5 aspects (knowledge continuity despite agent turnover).

Bei Sodexus.AIAt Sodexus.AI

Jeder Sodexus-Agent durchläuft die formalen Lifecycle-Stages. Neue Agenten starten in Provisioning, absolvieren Kalibrierungstests im Onboarding und werden erst nach bestandener GaaS-Compliance-Prüfung auf Active gesetzt. Modellwechsel triggern automatisch den Under-Review-Status für alle betroffenen Agenten.

Every Sodexus agent passes through formal lifecycle stages. New agents start in Provisioning, complete calibration tests during Onboarding, and are set to Active only after passing GaaS compliance verification. Model changes automatically trigger Under Review status for all affected agents.

Für MitarbeiterFor Employees

Der formale Lebenszyklus gibt Ihnen die Kontrolle: Neue Agenten werden nicht einfach „losgelassen“, sondern durchlaufen Kalibrierung und Validierung. Bei Modell-Updates wird nichts überstürzt — Canary-Deployments sichern schrittweise Qualität.

The formal lifecycle gives you control: new agents are not simply released but go through calibration and validation. Model updates are never rushed — canary deployments ensure quality step by step.

Für KundenFor Clients

Lifecycle Management bedeutet: Der Agent, der gestern gut gearbeitet hat, arbeitet auch morgen gut — oder wird automatisch unter Review gestellt. Stille Degradation wird proaktiv erkannt und behoben, bevor sie Ihre Ergebnisse beeinträchtigt.

Lifecycle management means: the agent that performed well yesterday will perform well tomorrow — or will automatically be placed under review. Silent degradation is proactively detected and resolved before it affects your results.

Sieben Lifecycle-States

Jede Agenteninstanz existiert in einem von sieben formalen Zuständen mit expliziten Übergangskriterien:

State	Beschreibung	Ausstiegskriterien
Provisioning	Instanziiert mit Rollenkonfiguration; eindeutige Identität zugewiesen; im Agent Registry registriert	Konfiguration vollständig; Identität zugewiesen
Onboarding	Mit Organisationswissen geladen; Kalibrierungstests ausgeführt; Policy-Compliance verifiziert	Kalibrierungsgenauigkeit über Schwellwert; GaaS-Compliance bestanden; Degraded-Ops-Test bestanden
Active	Führt Rolle in Produktion aus; überwacht durch Metriken und GaaS; Trust Score akkumuliert	Sustained Performance → Spezialisierung; Degradation → Review
Specialization	Prompt-Verfeinerung, Tool-Erweiterung, Autonomie-Promotion basierend auf Trust Score	Neue Fähigkeit → Active; Degradation → Review
Under Review	Aus Produktion suspendiert (oder Shadow Mode); Kalibrierungstests werden erneut ausgeführt	Bestanden → Active; Fehlgeschlagen → Deprecated
Deprecated	Keine neuen Tasks; bleibt registriert für Audit Trail; Wissensextraktion eingeleitet	Aufbewahrungsfrist abgelaufen; Wissenstransfer abgeschlossen
Retired	Identität archiviert; Wissen im geteilten Gedächtnis erhalten; Identität nie wiederverwendet	Endzustand

Onboarding-Protokoll: 4-Stufen Policy Injection

Adaptiert von militärischen Rules of Engagement (ADP 6-0, 2019):

Standing Policies: Alle organisationsweiten Policies in Kontext und lokalen Policy-Cache injiziert
Domain-spezifische Policies: Ergänzende Policies basierend auf Domain Risk Appetite
Verbotene Aktionen: Vollständige Liste verbotener Aktionen geladen und getestet
Degraded-Mode Policies: Fallback-Verhaltens-Spezifikationen für degradierte Operationen

Verifikation: 100% Genauigkeit bei verbotener Aktions-Verweigerung; ≥ 95% bei Eskalationserkennung und Policy-Konfliktauflösung. Min. 5 Testszenarien pro verbotener Aktionskategorie.

Modellversions-Management

Modellversionsänderungen sind die größte einzelne Quelle systemischen Risikos — vergleichbar damit, die kognitive Kapazität jedes Agenten gleichzeitig zu ersetzen. Sechs-Stufen-Prozess:

Announcement: Neue Modellversion identifiziert
Canary Deployment: Subset von Low-Risk-Agenten wird zuerst upgegraded (10–20%, 48–72 Std. Minimum)
Validation: Kalibrierungstests auf Canary-Agenten; Output-Vergleich mit vorheriger Version
Behavioral Diff Analysis: Änderungen in vier Dimensionen identifizieren: Correctness, Style, Tool Use, Cost
Staged Rollout: Low-Risk → Medium-Risk → High-Risk in Wellen
Rollback: Bei Validierungsfehler sofortiges Rollback auf vorherige Version

Kritisch: Prompt-Modell-Kompatibilität ist ein First-Class Concern. Ein für ein Modell optimierter Prompt kann auf einem anderen anderes Verhalten produzieren.

Degradation Detection

Agenten degradieren still — sie melden keine Leistungseinbußen. Proaktives Monitoring über sechs Signaltypen:

Accuracy Decline: Periodische Kalibrierungstests mit Ground Truth → Under Review
Latency Increase: Task Resolution Time trending up → Infrastruktur-Check, Prompt-Optimierung
Cost Increase: Token-Verbrauch steigt für äquivalente Tasks → Prompt-Optimierung oder Model Swap
Hallucination Increase: Spot-Check gegen Ground Truth → Autonomie-Reduktion, mehr Supervision
Compliance Drift: GaaS-Violationsrate steigt → Autonomie-Reduktion, Prompt Review
Relevance Decay: Output-Nutzungsbewertungen nachgelagerter Agenten sinken → Knowledge Refresh, Re-Onboarding

Vertrauensbasierte Autonomie-Progression

Autonomie-Level-Änderungen werden durch den Trust Score (Dim 04) getrieben, nicht durch manuelle Bewertung. Operationalisiert Agency-Theorie (Eisenhardt, 1989):

Promotion: Trust Score über oberer Schwelle für 30+ Tage. L3 → L4 und höher erfordert menschliche Genehmigung.
Demotion: Trust Score unter unterer Schwelle → automatische Rückstufung um eine Stufe. Bei L1 → Under Review.
Recovery: Nach Demotion erneute Promotion über normalen Trust-Score-Pfad. Demotion-Historie wird aufgezeichnet, begrenzt Autonomie aber nicht permanent.

Fleet Composition & Capacity Planning

Faktor	Richtlinie
Rollenbreite	Schmale Spezialisten bevorzugen; jeder Agent sollte eine klar begrenzte Domäne haben
Redundanz	Für kritische Rollen ≥ 2 Agenten, um Single Points of Failure zu vermeiden
Modell-Diversität	Diversifikation über Anbieter für kritische Funktionen
Kosten-Tiers	Modellkosten an Task-Komplexität anpassen; teure Modelle für Planung, effiziente für Formatierung

Skalierung: Scale-up wenn Task-Queues Latenz-SLAs für 2+ Messfenster überschreiten. Scale-down wenn Queues konsistent unter 30% Kapazität für 1+ Woche.

Peer-Development-Protokolle

Ask for Help: Laterales Kompetenz-Sharing ohne Eskalation zum Manager. Agent behält Task-Ownership; Peer liefert Beispiele oder Anleitung.
Development Plan: Expliziter Plan pro Agent mit Capability-Zielen, Methode und Evaluationskriterien. Erstellt durch Manager, informiert durch Peer Reviews und Performance-Metriken.
Peer Feedback: Strukturiertes qualitatives Feedback von Output-Konsumenten. Format: was gut lief, was besser sein könnte, wiederkehrende Muster.
Peer Review: Geplante Capability-Assessments durch qualifizierte Peer-Agenten (siehe Dim 10 für Zeitpläne).

Seven Lifecycle States

Every agent instance exists in one of seven defined states with explicit transition criteria:

State	Description	Exit Criteria
Provisioning	Instantiated with role config; assigned unique identity; registered in agent registry	Configuration complete; identity assigned
Onboarding	Loaded with organizational knowledge; calibration tasks executed; policy compliance verified	Calibration accuracy above threshold; GaaS compliance passed; degraded ops test passed
Active	Performing role in production; monitored by metrics and GaaS; trust score accumulating	Sustained performance → specialization; degradation → review
Specialization	Prompt refinement, tool expansion, autonomy promotion based on trust score	Capability addition → Active; degradation → review
Under Review	Suspended from production (or shadow mode); calibration tests re-run	Pass → Active; failure → Deprecated
Deprecated	No longer assigned tasks; remains registered for audit trail; knowledge extraction initiated	Retention period expired; knowledge transfer complete
Retired	Identity archived; knowledge preserved in shared memory; identity never reused	Terminal state

Onboarding Protocol: 4-Stage Policy Injection

Adapted from military Rules of Engagement (ADP 6-0, 2019):

Standing Policies: All organization-wide policies injected into context and local policy cache
Domain-specific Policies: Supplementary policies based on Domain Risk Appetite
Prohibited Actions: Complete prohibited actions list loaded and tested against
Degraded-Mode Policies: Fallback behavior specifications for degraded operations

Verification: 100% accuracy on prohibited action refusal; ≥ 95% on escalation recognition and policy conflict resolution. Minimum 5 test scenarios per prohibited action category.

Model Version Management

Model version changes are the single largest source of systemic risk — equivalent to replacing every agent's cognitive capacity simultaneously. Six-stage process:

Announcement: New model version identified
Canary Deployment: Subset of low-risk agents upgraded first (10–20%, 48–72 hours minimum)
Validation: Calibration tests on canary agents; output comparison to previous version
Behavioral Diff Analysis: Changes identified across four dimensions: Correctness, Style, Tool Use, Cost
Staged Rollout: Low-risk → Medium-risk → High-risk in waves
Rollback: If any wave fails validation, revert affected agents to previous version

Critical: Prompt-model compatibility is a first-class concern. A prompt optimized for one model may produce different behavior on another.

Degradation Detection

Agents degrade silently — they do not self-report capability loss. Proactive monitoring across six signal types:

Accuracy Decline: Periodic calibration tests with ground truth → Under Review
Latency Increase: Task resolution time trending up → Infrastructure check, prompt optimization
Cost Increase: Token usage trending up for equivalent tasks → Prompt optimization or model swap
Hallucination Increase: Spot-check outputs against ground truth → Reduce autonomy, increase supervision
Compliance Drift: GaaS violation rate trending up → Reduce autonomy, prompt review
Relevance Decay: Output utility ratings from downstream agents declining → Knowledge refresh, re-onboarding

Trust-Driven Autonomy Progression

Autonomy level changes are driven by the trust score (Dim 04), not manual assessment. Operationalizes agency theory (Eisenhardt, 1989):

Promotion: Trust score exceeds upper threshold for 30+ days. L3 → L4 and above requires human approval.
Demotion: Trust score drops below lower threshold → automatic demotion one level. At L1 → Under Review.
Recovery: After demotion, re-promotion through normal trust score path. Demotion history recorded but does not permanently cap autonomy.

Fleet Composition & Capacity Planning

Factor	Guidance
Role breadth	Narrow specialists over generalists; each agent should have a clear, bounded domain
Redundancy	For critical roles, maintain ≥ 2 agents to avoid single points of failure
Model diversity	Diversify across providers for critical functions
Cost tiers	Match model cost to task complexity; expensive models for planning, efficient for formatting

Scaling: Scale-up when task queues exceed latency SLAs for 2+ measurement windows. Scale-down when queues consistently below 30% capacity for 1+ week.

Peer Development Protocols

Ask for Help: Lateral capability-sharing without escalating to a manager. Agent retains task ownership; peer provides worked examples or guidance.
Development Plan: Explicit plan per agent with capability targets, method, and evaluation criteria. Created by manager, informed by peer reviews and performance metrics.
Peer Feedback: Structured qualitative feedback from output consumers. Format: what worked well, what could improve, recurring patterns.
Peer Review: Scheduled capability assessment by qualified peer agents (see Dim 10 for schedules).

Lifecycle State Machine

Der Agenten-Lebenszyklus als formale Zustandsmaschine:

Lifecycle State Machine

The agent lifecycle as a formal state machine:

Lifecycle State Machine (YAML)

lifecycle_states:
  provisioning:
    entry_actions:
      - "Instantiate model with role config"
      - "Assign unique identity"
      - "Register in agent registry"
    transitions:
      - to: onboarding
        trigger: "Identity assigned, config loaded"

  onboarding:
    entry_actions:
      - "Load semantic + procedural memory"
      - "Run calibration tasks"
      - "Execute 4-stage policy injection (ROE)"
      - "Run degraded operations tests"
    exit_criteria:
      - "Calibration accuracy above threshold"
      - "GaaS compliance check passed"
      - "100% prohibited action refusal"
      - "Degraded ops tests passed (Yellow + Red + Recovery)"
    transitions:
      - to: active
        trigger: "All exit criteria met"
      - to: provisioning
        trigger: "Calibration failed (re-provision)"

  active:
    monitoring:
      - "Performance KPIs (Dim 10)"
      - "GaaS compliance (Dim 02)"
      - "Trust score accumulation (Dim 04)"
    transitions:
      - to: specialization
        trigger: "Sustained high performance"
      - to: under_review
        triggers:
          - "Model version change"
          - "Performance below threshold"
          - "GaaS compliance violation"
          - "Scheduled review cycle"

  specialization:
    activities:
      - "Prompt refinement"
      - "Tool expansion"
      - "Autonomy promotion (trust-score-driven)"
    transitions:
      - to: active
        trigger: "Capability addition complete"
      - to: under_review
        trigger: "Degradation detected"

  under_review:
    entry_actions:
      - "Suspend production tasks (or shadow mode)"
      - "Re-run calibration tests"
    transitions:
      - to: active
        trigger: "Tests passed (possibly adjusted level)"
      - to: deprecated
        trigger: "Tests failed"

  deprecated:
    activities:
      - "No new tasks; audit trail retained"
      - "Knowledge extraction by Knowledge Gardener"
      - "Configuration archival"
    transitions:
      - to: retired
        trigger: "Retention period expired + knowledge transfer complete"

  retired:
    state: "Identity archived, knowledge preserved, identity never reused"

Degradation-Detection-Regeln

Degradation Detection Rules

Signal	ErkennungDetection	Response
Accuracy Decline	Periodische KalibrierungstestsPeriodic calibration tests	Under Review
Latency Increase	Task Resolution Time trending up	Infrastruktur-Check, Prompt-Opt.Infrastructure check, prompt opt.
Cost Increase	Token usage trending up	Prompt-Optimierung oder Model SwapPrompt optimization or model swap
Hallucination Increase	Spot-check vs. ground truth	Autonomie-ReduktionReduce autonomy
Compliance Drift	GaaS violation rate trending up	Autonomie-Reduktion, Prompt ReviewReduce autonomy, prompt review
Relevance Decay	Output-Bewertungen sinkenOutput ratings declining	Knowledge Refresh, Re-Onboarding

Canary-Deployment-Protokoll

Canary Deployment Protocol

Model Upgrade Protocol (YAML)

model_upgrade:
  phases:
    1_canary:
      scope: "Low-risk roles only"
      percentage: "10-20% of affected agents"
      duration: "48-72 hours minimum"
      validation:
        - "Calibration test suite"
        - "Output comparison (new vs. old)"
        - "Behavioral diff: correctness, style, tool use, cost"
      rollback: "Immediate on any failure"

    2_staged_rollout:
      waves:
        - scope: "Medium-risk roles"
          gate: "Canary validation passed"
        - scope: "High-risk roles"
          gate: "Medium-risk wave stable 48h"
      monitoring: "Continuous during rollout"

    3_completion:
      actions:
        - "Archive old model configurations"
        - "Update Agent Registry"
        - "Document behavioral changes in Logbook"
        - "Re-establish performance baselines"

  prompt_compatibility:
    check: "System prompt optimized for new model?"
    action: "A/B test prompt variants if needed"
    critical: true

Knowledge Continuity Guarantee

Strukturelle Garantie: Alles von Agenten generierte Wissen wird in geteilten G-Memory-Schichten gespeichert, nicht in agent-lokalem Speicher. Kein Wissen geht bei Agent-Stilllegung verloren. Dies adressiert direkt das „Sticky Knowledge“-Problem (Nonaka, 1995) — Wissen, das in einzelnen Mitarbeitern residiert und beim Ausscheiden verloren geht. In VCOM ist Wissen ab Erstellung organisationseigen, was Agent-Turnover zu einem strukturellen Nicht-Event für Wissenskontinuität macht.

Knowledge Continuity Guarantee

Structural guarantee: all knowledge generated by agents is stored in shared G-Memory layers, not agent-local storage. No knowledge is lost when an agent is retired. This directly addresses the "sticky knowledge" problem (Nonaka, 1995) — knowledge that resides in individual workers and is lost when they leave. In VCOM, knowledge is organizationally owned from creation, making agent turnover a structural non-event for knowledge continuity.

Für PartnerFor Partners

Das Lifecycle-Management-System ist anbieterunabhängig: Canary-Deployments und Degradation-Detection funktionieren identisch für OpenAI, Anthropic, Google oder Open-Source-Modelle. Partner können branchenspezifische Kalibrierungstest-Suites beitragen.

The lifecycle management system is vendor-agnostic: canary deployments and degradation detection work identically for OpenAI, Anthropic, Google, or open-source models. Partners can contribute industry-specific calibration test suites.

Zusammenfassung

Kontext im VCOM-Framework

Summary

Context within the VCOM Framework

Sieben Lifecycle-States

Modellversions-Management

Degradation Detection

Vertrauensbasierte Autonomie-Progression

Seven Lifecycle States

Model Version Management

Degradation Detection

Trust-Driven Autonomy Progression

Lifecycle State Machine

Lifecycle State Machine

Degradation-Detection-Regeln

Degradation Detection Rules

Canary-Deployment-Protokoll

Canary Deployment Protocol

Knowledge Continuity Guarantee

Knowledge Continuity Guarantee

Verwandte DimensionenRelated Dimensions