10

Performance & MessungPerformance & Measurement

Wie gut arbeitet die virtuelle Organisation?How well does the virtual organization perform?

Die Feedback-Schleife der KI-nativen Organisation: Wie Agent-Leistung über vier KPI-Kategorien bewertet, durch das RepuNet-Reputationssystem abgesichert und über das Uncertainty Accumulation Model bei Abwesenheit des Principals gesteuert wird. The feedback loop of the AI-native organization: how agent performance is evaluated across four KPI categories, secured through the RepuNet reputation system, and managed through the Uncertainty Accumulation Model during principal absence.

Zusammenfassung

Wie bewertet und optimiert man eine Belegschaft, die rund um die Uhr arbeitet, keine psychologischen Bedürfnisse hat, aber anfällig für subtile Fehler ist? Traditionelle HR-Metriken reichen nicht. Diese Dimension definiert ein KPI-Framework über vier Kategorien (Effizienz, Qualität, Autonomie, Verhalten), das RepuNet-Reputationssystem für dezentrale Qualitätssicherung, Strategic Drift Detection, das Uncertainty Accumulation Model für Principal-Abwesenheit und Multi-Agent Outcome Attribution.

KI-Agent-KPIs unterscheiden sich fundamental von menschlichen KPIs: Bewertung basiert auf Outcomes statt Aufwand, Feedback ist dynamisch statt jährlich, und Autonomie wird als eigenständige Metrik gemessen. Designprinzip: Jede Metrik muss einer Entscheidung zugeordnet sein, die sie informiert (Goodhart's Law-Prävention).

Kontext im VCOM-Framework

Performance & Messung ist die Feedback-Schleife (System 3 im VSM, Beer 1972). Sie evaluiert Outputs aus Prozessen (Dim 05), informiert Trust-Score-Berechnung in Identität & Vertrauen (Dim 04), treibt Autonomie-Level-Progression im Lebenszyklus-Management (Dim 11) und generiert evaluatives Wissen für das Wissenssystem (Dim 09).

Summary

How do you evaluate and optimize a workforce that operates around the clock, has no psychological needs, yet is susceptible to subtle errors? Traditional HR metrics are insufficient. This dimension defines a KPI framework across four categories (efficiency, quality, autonomy, behavioral), the RepuNet reputation system for decentralized quality assurance, Strategic Drift Detection, the Uncertainty Accumulation Model for principal absence, and Multi-Agent Outcome Attribution.

AI agent KPIs differ fundamentally from human KPIs: evaluation is based on outcomes rather than effort, feedback is dynamic rather than annual, and autonomy is measured as an independent metric. Design principle: every metric must map to a decision it informs (Goodhart's Law prevention).

Context within the VCOM Framework

Performance & Measurement is the feedback loop (System 3 in VSM, Beer 1972). It evaluates outputs from Processes (Dim 05), informs trust score computation in Identity & Trust (Dim 04), drives autonomy level progression in Lifecycle Management (Dim 11), and generates evaluative knowledge for the Knowledge system (Dim 09).

Bei Sodexus.AIAt Sodexus.AI

Sodexus misst jeden Agenten über ein multidimensionales KPI-Dashboard im Founder Cockpit. Trust Scores berechnen sich als Rolling-Window-Komposit aus Goal Accuracy, Hallucination Rate, Escalation Rate und GaaS Compliance. Agenten mit sinkendem Trust Score werden automatisch in niedrigere Autonomiestufen zurückgestuft.

Sodexus measures every agent through a multidimensional KPI dashboard in the Founder Cockpit. Trust scores are computed as rolling-window composites of goal accuracy, hallucination rate, escalation rate, and GaaS compliance. Agents with declining trust scores are automatically demoted to lower autonomy levels.

Für MitarbeiterFor Employees

Das Performance-System schafft Transparenz: Sie sehen in Echtzeit, wie gut jeder Agent in Ihrem Team arbeitet. Keine Überraschungen bei Quartalsreviews — kontinuierliches Feedback ermöglicht frühzeitiges Eingreifen bei Problemen.

The performance system creates transparency: you see in real time how well each agent on your team is performing. No surprises at quarterly reviews — continuous feedback enables early intervention when problems arise.

Für KundenFor Clients

Jeder Agent, der mit Ihren Daten oder Aufträgen arbeitet, wird kontinuierlich bewertet. Das Reputationssystem stellt sicher, dass nur zuverlässige, hochperformante Agenten kritische Aufgaben übernehmen. Qualität wird systemisch garantiert, nicht durch Einzelaufsicht.

Every agent working with your data or assignments is continuously evaluated. The reputation system ensures that only reliable, high-performing agents handle critical tasks. Quality is guaranteed systemically, not through individual oversight.

EFFIZIENZEFFICIENCY QUALITÄTQUALITY AUTONOMIE / AUTONOMY VERHALTENBEHAVIORAL Task Resolution Time Cost per Goal Achieved Task Redundancy Rate <5% Ziel: Sinkender TrendTarget: Declining trend Goal Accuracy >85% Hallucination Rate <2% Output Consistency Ziel: Niedrige VarianzTarget: Low variance Human Intervention Rate Escalation Rate Self-Correction Rate Ziel: PhasengerechtTarget: Phase-appropriate Plan Optimality Collaboration Effectiveness >90% Decision Quality Ziel: Steigender TrendTarget: Improving trend

Vier KPI-Kategorien

Das Framework nutzt vier Kategorien, um Goodhart's Law zu vermeiden (wenn eine Metrik zum Ziel wird, hört sie auf, eine gute Metrik zu sein). Basierend auf der Balanced-Scorecard-Tradition (Simon, 1997), adaptiert für KI-Agenten:

  • Effizienz: Task Resolution Time, Cost per Goal Achieved, Task Redundancy Rate (<5%) — wie schnell und kostengünstig erreicht der Agent sein Ziel?
  • Qualität: Goal Accuracy (>85%), Hallucination Rate (<2%), Output Consistency — wie zuverlässig sind die Ergebnisse?
  • Autonomie: Human Intervention Rate, Escalation Rate, Self-Correction Rate — wie eigenständig operiert der Agent?
  • Verhalten: Plan Optimality, Collaboration Effectiveness (>90%), Decision Quality — wie intelligent handelt der Agent?
Spezialisierte Metrikkategorien

Spannungsmetriken (S3-basiert): Spannungs-Generierungsrate, -Auflösungsrate und Spannungs-zu-Governance-Verhältnis als diagnostische Signale.

Governance-Metriken: Governance-Backlog-Größe und -Alter, Policy-Review-Compliance, Consent-Runden-Dauer, Einwand-zu-Bedenken-Verhältnis.

Decision-Cycle Latency (C2-basiert): Zeit von Spannungserkennung (Observe) bis Auflösung (Act), inspiriert von Boyds OODA-Loop. Segmente: Spannung-bis-Auflösung (< Wettbewerbszykluszeit), Eskalationslatenz (< 5 Min. für kritische Spannungen).

Risikoakzeptanz-Metriken (C2-basiert): Risikoentscheidungsrate, Übervorsichtigkeitsrate, Überaggressivitätsrate und risikoadjustierte Ergebnisqualität.

Kognitive Metriken: Context Utilization, Tool Selection Accuracy, Uncertainty Calibration — während geplanter Peer Reviews bewertet.

RepuNet-Reputationssystem

Für dezentrale Qualitätssicherung in skalierten Multi-Agenten-Systemen (Sabater & Sierra, 2005; Ramchurn et al., 2004). Vier Mechanismen:

  • Peer Evaluation: Strukturiertes Qualitäts-Feedback auf empfangene Inputs
  • Signal Propagation: Gossip-Protokolle verbreiten Zuverlässigkeitsinformationen
  • Behavioral Consequences: Agenten mit niedriger Reputation erhalten weniger Aufträge; Cluster hochperformanter Agenten bilden sich natürlich
  • Feedback Weighting: Bewertungen werden nach Evaluator-Reputation gewichtet
RepuNet Vulnerabilitäts-Mitigationen
AngriffMitigation
Voting RingsCross-Referenzierung von Bewertungsmustern; statistisch unwahrscheinliche gegenseitige Hochbewertungen werden geflaggt
Sybil-AngriffeReputation an einzigartige, nicht übertragbare Agent-Identitäten gebunden (Dim 04)
WhitewashingAppend-only Reputationshistorie; neue Identitäten lösen Probationsphase aus
Revenge VotingBewertungen nach Evaluator-Reputation gewichtet; niedrige Reputation = reduzierter Einfluss

Zusätzliche Mechanismen: Quadratic Voting (Power = Quadratwurzel der investierten Reputation), Reputation Decay (Scores sinken natürlich), Multi-Source Validation (Signale zählen nur bei 3+ unabhängigen Bestätigungen).

Strategic Drift Detection

Standard-Per-Task-Metriken erkennen nicht die schrittweise Abweichung des Organisationsverhaltens von der Absicht des Principals über Tausende von Mikroentscheidungen. Drei Erkennungsmechanismen:

  • Constitutional Alignment Checks: Wöchentlicher Vergleich von Agent-Outputs gegen Organisationsverfassungswerte
  • Intent Drift Score: Verteilung aktueller Entscheidungen vs. ursprüngliche Intent-Aussage im Agent Manifest
  • Long-Horizon Outcome Tracking: Überwacht, ob kurzfristige Metrik-Optimierung gewünschte langfristige Ergebnisse liefert

Uncertainty Accumulation Model

Jedes Kontrollmodell degradiert ohne Rekalibrierung (Ashby, 1956; Beer, 1972). Der Principal ist Ground Truth für strategische Absicht. Formale Definition:

U(t) = U0 + α · ln(1 + β · (t − t0))

Logarithmisches Wachstum: schneller Anfangsanstieg, der sich verlangsamt, wenn die Organisation durch interne Feedback-Mechanismen adaptiert.

Unsicherheitszonen und Reduktionsmechanismen
ZoneU-LevelTypische ZeitSystemverhalten
GrünU < 0.20–48 Std.Normalbetrieb. Volle Autonomie innerhalb zugewiesener Level.
Gelb0.2 ≤ U < 0.52–7 TageProaktive Check-in-Versuche. Explorations-Budget −25%. Neue strategische Initiativen verschoben.
Orange0.5 ≤ U < 0.71–2 WochenKonservierungsmodus. Risikoappetit konservativ. Alle L3+-Aktionen erfordern Manager-Bestätigung.
RotU ≥ 0.72+ WochenWartungsmodus. Nur stehende Policies. Keine neuen Arbeitspakete. Alle Outputs für Principal-Review markiert.

Reduktionsmechanismen (abnehmende Effektivität): (1) Principal-Interaktion (setzt t0 zurück), (2) Externe Validierung (−0.1 pro validierter Annahme), (3) Empirisches Testen (proportional zur Konfidenz), (4) Peer/Benchmark-Vergleich (~0.05 pro Benchmark).

Peer-Review-Mechanismen

Drei Review-Typen:

  • Automated Review: Reviewer-Agent prüft Outputs gegen Schemas, Style Guides und faktische Konsistenz
  • Cross-Validation: Zwei Agenten führen die gleiche Aufgabe unabhängig aus; Outputs werden verglichen
  • Adversarial Review: Ein Kritik-Agent sucht aktiv nach Fehlern, Bias und Halluzinationen
Review-Zeitplan nach Rollenarchetyp
RollenarchetypFrequenzPrimärer Reviewer
WorkerZweimal monatlichManager + ein Peer-Konsument
SpecialistMonatlichQualifizierter Peer-Spezialist
ManagerMonatlichPrincipal oder Delegate Circle
CoordinatorZweimal monatlichManager
Governance FacilitatorMonatlichPrincipal
Multi-Agent Outcome Attribution

Dreistufige Strategie, die Genauigkeit gegen Rechenkosten abwägt:

AnsatzMechanismusEinsatz
Stage-based (Standard)Jeder Agent verantwortet eine Workflow-Phase; Ergebnisse der Phase mit Abweichung zugeordnetRoutinebetrieb
Trace-based (Eskalation)Vollständige Execution-Trace-AnalyseMehrdeutige Fälle, High-Stakes-Fehler
Counterfactual (Root Cause)Workflow-Wiederholung mit Substitution eines Agent-Outputs durch bekannte gute AlternativeSystemische Fehleranalyse — sehr teuer

Four KPI Categories

The framework uses four categories to prevent Goodhart's Law effects (when a measure becomes a target, it ceases to be a good measure). Drawing on the balanced scorecard tradition (Simon, 1997) adapted for AI agents:

  • Efficiency: Task Resolution Time, Cost per Goal Achieved, Task Redundancy Rate (<5%) — how fast and cost-effectively does the agent achieve its goal?
  • Quality: Goal Accuracy (>85%), Hallucination Rate (<2%), Output Consistency — how reliable are results?
  • Autonomy: Human Intervention Rate, Escalation Rate, Self-Correction Rate — how independently does the agent operate?
  • Behavioral: Plan Optimality, Collaboration Effectiveness (>90%), Decision Quality — how intelligently does the agent act?
Specialized Metric Categories

Tension metrics (S3-derived): Tension generation rate, resolution rate, and tension-to-governance ratio as diagnostic signals.

Governance metrics: Governance backlog size and age, policy review compliance, consent round duration, objection-to-concern ratio.

Decision-Cycle Latency (C2-derived): Time from tension detection (Observe) to resolution (Act), inspired by Boyd's OODA loop. Segments: tension-to-resolution (< competitive cycle time), escalation latency (< 5 min for critical tensions).

Risk acceptance metrics (C2-derived): Risk decision rate, over-conservative rate, over-aggressive rate, and risk-adjusted outcome quality.

Cognitive metrics: Context utilization, tool selection accuracy, uncertainty calibration — assessed during scheduled peer reviews.

RepuNet Reputation System

For decentralized quality assurance in scaled multi-agent systems (Sabater & Sierra, 2005; Ramchurn et al., 2004). Four mechanisms:

  • Peer Evaluation: Structured quality feedback on received inputs
  • Signal Propagation: Gossip protocols distributing reliability information
  • Behavioral Consequences: Low-reputation agents receive fewer assignments; high-performance clusters form naturally
  • Feedback Weighting: Evaluations scaled by evaluator's own reputation
RepuNet Vulnerability Mitigations
AttackMitigation
Voting RingsCross-reference evaluation patterns; flag statistically improbable mutual high ratings
Sybil AttacksBind reputation to unique, non-transferable agent identities (Dim 04)
WhitewashingAppend-only reputation history; new identities trigger probationary period
Revenge VotingWeight evaluations by evaluator reputation; low-reputation evaluators have reduced influence

Additional mechanisms: Quadratic Voting (power = square root of reputation invested), Reputation Decay (scores decrease naturally), Multi-Source Validation (signals counted only with 3+ independent confirmations).

Strategic Drift Detection

Standard per-task metrics do not detect the gradual divergence of organizational behavior from the principal's intent across thousands of micro-decisions. Three detection mechanisms:

  • Constitutional Alignment Checks: Weekly comparison of agent outputs against organizational constitution values
  • Intent Drift Score: Distribution of recent decisions compared against original intent statement in each Agent Manifest
  • Long-Horizon Outcome Tracking: Monitors whether short-term metric optimization produces desired long-term outcomes

Uncertainty Accumulation Model

Any controller's model of its environment degrades without recalibration (Ashby, 1956; Beer, 1972). The principal constitutes ground truth for strategic intent. Formal definition:

U(t) = U0 + α · ln(1 + β · (t − t0))

Logarithmic growth: rapid initial increase that decelerates as the organization adapts through internal feedback mechanisms.

Uncertainty Zones and Reduction Mechanisms
ZoneU LevelTypical TimeSystem Behavior
GreenU < 0.20–48 hoursNormal operations. Full autonomy within assigned levels.
Yellow0.2 ≤ U < 0.52–7 daysProactive check-in attempts. Exploration budget −25%. New strategic initiatives deferred.
Orange0.5 ≤ U < 0.71–2 weeksConservation mode. Risk appetite shifts conservative. All L3+ actions require Manager confirmation.
RedU ≥ 0.72+ weeksMaintenance mode. Only standing-policy-compliant actions. No new work items. All output flagged for principal review.

Reduction mechanisms (decreasing effectiveness): (1) Principal interaction (resets t0), (2) External validation (−0.1 per validated assumption), (3) Empirical testing (proportional to confidence), (4) Peer/benchmark comparison (~0.05 per benchmark).

Peer Review Mechanisms

Three review types:

  • Automated Review: Reviewer agent checks outputs against schemas, style guides, and factual consistency
  • Cross-Validation: Two agents independently perform the same task; outputs are compared
  • Adversarial Review: A dedicated critic agent actively searches for flaws, biases, and hallucinations
Review Schedule by Role Archetype
Role ArchetypeFrequencyPrimary Reviewer
WorkerBi-weeklyManager + one peer consumer
SpecialistMonthlyQualified peer specialist
ManagerMonthlyPrincipal or delegate circle
CoordinatorBi-weeklyManager
Governance FacilitatorMonthlyPrincipal
Multi-Agent Outcome Attribution

Tiered strategy balancing accuracy against computational cost:

ApproachMechanismWhen to Use
Stage-based (default)Each agent owns a workflow stage; outcomes attributed to stage where deviation occurredRoutine operations
Trace-based (escalation)Full execution trace analysis identifying which agent's output deviatedAmbiguous cases, high-stakes failures
Counterfactual (root cause)Re-run workflow substituting one agent's output with known-good alternativeSystemic failure analysis — very expensive

KPI-Dashboard-Struktur

Real-time-Dashboard im Founder Cockpit mit vier Metrikkategorien:

KPI Dashboard Structure

Real-time dashboard in the Founder Cockpit with four metric categories:

KategorieCategory SchlüsselmetrikenKey Metrics ZielwerteTargets
EffizienzEfficiency Task Resolution Time, Cost per Goal, Redundancy Rate Domainspezifisch; sinkender TrendDomain-specific; declining trend
QualitätQuality Goal Accuracy, Hallucination Rate, Output Consistency >85% Accuracy, <2% Hallucination
AutonomieAutonomy Human Intervention Rate, Escalation Rate, Self-Correction Sinkende Intervention, steigende Self-CorrectionDeclining intervention, increasing self-correction
VerhaltenBehavioral Plan Optimality, Collaboration Effectiveness, Decision Quality Steigende EntscheidungsqualitätImproving decision quality

Trust-Score-Formel

Trust Score Formula

Trust Score Computation (YAML)
trust_score:
  computation: weighted_composite
  window: "rolling_30_days"
  range: [0.0, 1.0]

  components:
    - metric: goal_accuracy
      weight: w1  # role-dependent
    - metric: hallucination_rate
      transform: "1 - value"
      weight: w2
    - metric: escalation_rate
      transform: "1 - value"
      weight: w3
    - metric: gaas_compliance_rate
      weight: w4
    - metric: self_correction_rate
      weight: w5

  weight_profiles:
    finance_agent:
      w1: 0.15, w2: 0.20, w3: 0.15, w4: 0.35, w5: 0.15
    creative_agent:
      w1: 0.35, w2: 0.15, w3: 0.15, w4: 0.15, w5: 0.20

  thresholds:
    promotion: 0.85  # sustained 30 days
    demotion: 0.60   # triggers autonomy reduction
    review: 0.45     # triggers under_review state

Baseline-Establishment-Methodik

Eine Metrik ohne Baseline ist uninformativ. Fünf-Phasen-Methodik:

  1. Observation (2–4 Wochen): Metriken ohne Alerts oder Interventionen sammeln. Natürliche Varianz verstehen.
  2. Statistische Analyse: Mittelwert, Varianz, Perzentilverteilungen. Tageszeit-/Wochentag-Muster identifizieren.
  3. Target Setting: Drei Schwellenwerte — akzeptabler Bereich, Warnschwelle (Untersuchung), kritische Schwelle (automatische Degradierung).
  4. Kalibrierung (2 Wochen): Mit Alerts laufen; Schwellenwerte gegen False-Positive-Raten tunen.
  5. Operativer Einsatz: Baselines aktiv; vierteljährliche Überprüfung oder nach Modellwechsel.

Kritisch: Baselines müssen nach jedem Modellversionswechsel neu erstellt werden — bestehende Verhaltensverteilungen werden invalidiert.

Baseline Establishment Methodology

A metric without a baseline is uninformative. Five-phase methodology:

  1. Observation (2–4 weeks): Collect metrics without alerts or interventions. Understand natural variance.
  2. Statistical Analysis: Compute mean, variance, percentile distributions. Identify time-of-day or day-of-week patterns.
  3. Target Setting: Three thresholds — acceptable range, warning threshold (investigation), critical threshold (automatic demotion).
  4. Calibration (2 weeks): Run with alerts enabled; tune thresholds against false positive rates.
  5. Operational Deployment: Baselines active; reviewed quarterly or after model version changes.

Critical: Baselines must be re-established after every model version change, which invalidates existing behavioral distributions.

Governance-Metriken

Zusätzlich zu Agent-Level-KPIs misst das System die Gesundheit der Governance selbst:

  • Governance Backlog Size & Age: Wachsender Backlog signalisiert unzureichende Governance-Kapazität
  • Policy Review Compliance: Anteil termingerecht geüberprüfter Policies
  • Consent Round Duration: Tokens/Zeit pro Consent-Runde — sollte mit zunehmender Governance-Reife sinken
  • Decision-Cycle Latency: Zeit von Spannungserkennung bis Auflösung (OODA-basiert)

Governance Metrics

In addition to agent-level KPIs, the system measures the health of governance itself:

  • Governance Backlog Size & Age: Growing backlog signals insufficient governance capacity
  • Policy Review Compliance: Proportion of policies reviewed on schedule
  • Consent Round Duration: Tokens/time per consent round — should decline with increasing governance maturity
  • Decision-Cycle Latency: Time from tension detection to resolution (OODA-based)
Für PartnerFor Partners

Das KPI-Framework ist erweiterbar: Branchenpartner definieren domänenspezifische Metriken (z.B. SLA-Compliance für Service-Branchen, Präzision für Engineering) und integrieren sie in das bestehende Trust-Score-System über konfigurierbare Gewichtungsprofile.

The KPI framework is extensible: industry partners define domain-specific metrics (e.g., SLA compliance for service industries, precision for engineering) and integrate them into the existing trust score system through configurable weight profiles.