Executive Briefing: Das fehlende Audit

Viele Unternehmen messen AI-Nutzung, gesparte Stunden und Adoption. Was oft fehlt, ist die Schicht, die prüft, ob diese Zahlen überhaupt Wert abbilden.

Ein AI-Dashboard kann sehr beruhigend aussehen.

Adoption steigt. Token-Verbrauch steigt. Angeblich gesparte Stunden steigen. Die Zahl der automatisierten Workflows steigt. Die Zahl der aktiven Nutzer steigt. Auf der Folie sieht das nach Fortschritt aus.

Nur beantwortet keine dieser Zahlen automatisch die wichtigste Frage:

Stimmt das eigentlich?

Nicht technisch. Nicht ob die Zahl korrekt gezählt wurde. Sondern organisatorisch: Bildet diese Zahl Wert ab, oder nur Aktivität? Zeigt sie Produktivität, oder nur Bewegung? Zeigt sie bessere Arbeit, oder nur mehr Arbeit, die schneller durch ein anderes System läuft?

Genau hier fehlt in vielen AI-Programmen eine Schicht.

Nicht noch ein Dashboard. Nicht noch ein Steering Committee. Ein Audit der eigenen Steuerungslogik.

Bleib auf dem Laufenden

Erhalte eine Nachricht, wenn ein neuer Essay erscheint. Jederzeit abbestellbar.

Metriken werden schnell zu Zielen

Das Problem ist alt. Charles Goodhart hat es für Geldpolitik formuliert, Marilyn Strathern später breiter bekannt gemacht:

Wenn eine Messgröße zum Ziel wird, hört sie auf, eine gute Messgröße zu sein.

In AI-Programmen sieht man diese Mechanik gerade überall.

Wenn Adoption gemessen wird, optimieren Teams auf sichtbare Nutzung. Wenn gesparte Stunden gemessen werden, entstehen großzügige Zeitersparnis-Schätzungen. Wenn Agentenläufe gemessen werden, laufen mehr Agenten. Wenn erzeugte Artefakte gemessen werden, entstehen mehr Texte, Tickets, Analysen, Slides und Codezeilen.

Das heißt nicht, dass alle Zahlen falsch sind.

Es heißt nur: Sobald eine Zahl wichtig wird, verändert sie das Verhalten des Systems, das sie messen soll.

Ein Team, das für AI-Nutzung belohnt wird, nutzt AI. Ob die Arbeit dadurch besser wird, ist eine andere Frage. Ein Bereich, der gesparte Stunden melden soll, findet gesparte Stunden. Ob diese Zeit in bessere Entscheidungen, bessere Kundenarbeit oder bessere Qualität fließt, ist wieder eine andere Frage.

AI macht diese Falle schärfer, weil so viel Output sofort sichtbar wird. Die Maschine produziert. Das Dashboard bewegt sich. Das Management sieht Fortschritt.

Aber Fortschritt ist nicht dasselbe wie Bewegung.

Das fehlende System 3 Stern

Stafford Beer hat in seinem Viable System Model eine hilfreiche Unterscheidung getroffen. Eine lebensfähige Organisation braucht nicht nur operative Arbeit und Steuerung. Sie braucht auch eine Audit-Funktion.

Vereinfacht gesagt:

System 1 macht die Arbeit.
System 2 koordiniert die Arbeit.
System 3 steuert Ressourcen und Performance.
System 3 Stern prüft, ob System 3 die Wirklichkeit richtig sieht.

Genau dieses System 3 Stern fehlt vielen AI-Initiativen.

Die operative Ebene ist da: Menschen nutzen Tools, Agents erledigen Aufgaben, Automationen laufen. Die Steuerungsebene ist auch da: KPIs, Budgets, Dashboards, Roadmaps, Statusberichte.

Aber wer prüft die Prüfer?

Wer schaut sich an, ob „gesparte Stunden“ wirklich Kapazität freisetzen oder nur in neue Meetings verdampfen? Wer prüft, ob hohe Adoption bedeutet, dass die richtigen Aufgaben unterstützt werden? Wer untersucht, ob mehr erzeugter Code später mehr Wartung erzeugt? Wer fragt, ob ein AI-Assistent die Qualität verbessert oder nur den ersten Entwurf billiger macht?

Wenn niemand diese Rolle hat, steuert die Organisation nach Instrumenten, deren Kalibrierung niemand überprüft.

Das ist wie ein Flugzeug mit vielen Anzeigen und ohne Wartung der Sensoren. Technisch sieht alles kontrolliert aus. Organisatorisch fliegt man nach Glauben.

Die falsche Sicherheit der Kontrollschicht

Viele Unternehmen verwechseln Kontrolle mit Audit.

Kontrolle fragt: Werden die Vorgaben eingehalten? Wird das Budget genutzt? Werden die Tools adoptiert? Sind die Risiken dokumentiert? Läuft das Programm im Plan?

Audit fragt etwas Unbequemeres:

Sind die Vorgaben überhaupt geeignet, Wahrheit zu erzeugen?

Das ist ein anderer Job.

Ein AI-Programm kann alle Governance-Boxen abhaken und trotzdem in die falsche Richtung laufen. Es kann sichere Tools nutzen und trotzdem schlechte Entscheidungen beschleunigen. Es kann DSGVO-konform sein und trotzdem falsche Produktivitätsannahmen zementieren. Es kann hohe Nutzungszahlen zeigen und trotzdem Urteilskraft abbauen.

Darum reicht es nicht, AI-Governance als Policy- und Freigabeprozess zu verstehen. Die schwierigere Governance liegt eine Ebene höher: Wer kontrolliert, ob die Steuerungslogik selbst noch stimmt?

Das klingt abstrakt, wird aber sehr konkret, sobald ein Vorstand fragt: Was hat uns AI gebracht?

Wenn die Antwort nur aus Nutzern, Tokens, Stunden und Use Cases besteht, fehlt der Wertnachweis. Dann wird Aktivität gemessen, nicht Wirkung.

Warum das gerade in deutschen Unternehmen zählt

Deutsche Unternehmen haben oft längere Feedback-Zyklen als amerikanische Tech-Firmen. Entscheidungen wandern durch mehr Gremien, mehr Funktionen, mehr rechtliche und organisatorische Schichten.

Das ist langsam. Manchmal quälend langsam.

Aber es bedeutet auch: Wenn eine falsche AI-Metrik einmal in den Steuerungsapparat gelangt, kann sie lange wirken. Sie taucht in Quartalsberichten auf, wird Teil von Zielsystemen, wandert in Bereichslogiken und prägt Investitionsentscheidungen.

Dann ist die Metrik nicht mehr nur ein Messfehler. Sie wird zur Organisationsrealität.

Gleichzeitig haben DACH-Unternehmen einen Vorteil, wenn sie ihn richtig nutzen: Sie kennen institutionalisierte Gegenfragen. Datenschutz, Betriebsrat, Compliance, interne Revision, Finance, Qualitätsmanagement. All diese Funktionen können nerven. Aber sie können auch die Audit-Schicht bilden, die AI-Programme dringend brauchen.

Nicht als pauschale Bremse. Sondern als präzise Frageinstanz.

Welche AI-Metrik kann steigen, ohne dass echter Wert entsteht?
Welche Kosten tauchen nicht im Dashboard auf?
Welche Qualitätsfolgen sieht man erst später?
Welche Rolle darf sagen: Diese Zahl ist grün, aber die Wirklichkeit ist es nicht?

Wenn diese Fragen früh gestellt werden, ist das kein Innovationshindernis. Es ist Sensorwartung.

Der Führungstest

Die Führungsfrage lautet nicht: Haben wir ein AI-Dashboard?

Die Frage lautet: Haben wir eine unabhängige Schicht, die dieses Dashboard angreifen darf?

Nicht sabotieren. Angreifen im guten Sinn: Annahmen prüfen, Gegenbeispiele suchen, blinde Flecken benennen, Metriken gegen echte Arbeit halten.

Vier Sätze reichen für den Anfang:

Diese AI-Metrik kann steigen, ohne dass Wert entsteht: …
Diese Nebenwirkung sehen wir im Dashboard nicht: …
Diese Person oder Funktion darf unsere AI-Erfolgsmessung widersprechen: …
Diese Entscheidung würden wir zurücknehmen, wenn die Audit-Schicht widerspricht: …

Der vierte Satz ist der härteste. Denn ein Audit, das nichts stoppen kann, ist Dekoration.

AI-Programme brauchen nicht weniger Messung. Sie brauchen bessere Skepsis gegenüber der eigenen Messung.

Sonst entsteht die gefährlichste Form von Kontrolle: ein System, das sehr genau misst, wie es sich selbst täuscht.

Navigation

Executive Briefing: Das fehlende Audit

Bleib auf dem Laufenden

Metriken werden schnell zu Zielen

Das fehlende System 3 Stern

Die falsche Sicherheit der Kontrollschicht

Warum das gerade in deutschen Unternehmen zählt

Der Führungstest

Tiefer einsteigen

Evaluation ist die neue Führungsarbeit

Was wollt ihr eigentlich?

Das falsche Black-Box-Problem