Executive Briefing: Mehr Output ist noch keine Produktivität

AI kann in Minuten erzeugen, wofür Teams früher Stunden brauchten. Nur muss danach immer noch jemand prüfen, entscheiden und den Kram später warten. Genau dort wird aus vermeintlicher Produktivität neue Arbeit.

Die wichtigste Frage bei AI-Produktivität lautet nicht: Wie schnell kann das System etwas erzeugen?

Die wichtigere Frage lautet: Wo landet die Arbeit danach?

Denn genau dort liegt die Falle. AI macht die erste Hälfte vieler Aufgaben schneller: Entwurf, Zusammenfassung, Varianten, Code, Recherche, Ticket-Vorbereitung. Das fühlt sich produktiv an, weil plötzlich mehr auf dem Tisch liegt.

Aber der Tisch ist nicht das Ziel.

Irgendwer muss prüfen, was stimmt. Irgendwer muss entscheiden, was brauchbar ist. Irgendwer muss die glatten Fehler finden. Irgendwer muss das Ergebnis später warten. Wenn diese Arbeit gleich bleibt oder wächst, wurde Produktivität nicht gewonnen. Sie wurde nur anders verteilt.

Das ist kein Anti-AI-Argument. Im Gegenteil. Genau weil AI nützlich ist, muss man sauberer rechnen.

Bleib auf dem Laufenden

Erhalte eine Nachricht, wenn ein neuer Essay erscheint. Jederzeit abbestellbar.

Der Engpass wandert

In jedem Prozess, egal ob in klassischer Produktion oder Wissensarbeit, gibt es einen Engpass. Wenn man einen Schritt beschleunigt, verschwindet dieser Engpass nicht automatisch. Er wandert. Das hat Eliyahu M. Goldratt schon sehr treffend beschrieben.

Vor AI lag der Engpass oft in der Erstellung. Ein erster Entwurf dauerte. Eine Analyse dauerte. Eine Variante dauerte. Ein Pull Request dauerte. Eine Zusammenfassung brauchte ihre Zeit.

Mit AI wird dieser Schritt billiger.

Dadurch verschwindet der Engpass aber nicht. Er wandert zur Bewertung, zur Beurteilung, zur Evaluation.

Das sieht im Alltag ungefähr so aus:

Der Text ist schneller da, aber Legal braucht genauso lange.
Der Code ist schneller geschrieben, aber Review und Maintenance wachsen.
Die Analyse ist schneller erstellt, aber niemand entscheidet schneller.
Der Agent erledigt Teilaufgaben, aber jemand muss Logs, Ausnahmen und Fehler prüfen.
Die Kampagnenvarianten explodieren, aber die Marke wird nicht automatisch klarer.

So entsteht die Produktivitätsfalle: Die sichtbare Arbeit wird schneller. Die entscheidende Arbeit bleibt liegen.

Und weil diese entscheidende Arbeit oft unsichtbarer ist, taucht sie im Dashboard nicht sauber auf.

Auch das ist Goldratt pur: Jede Optimierung an einer anderen Stelle als dem Bottleneck, also dem Engpass, ist verschwendet. Optimierst du davor, staut sich immer mehr Arbeit am Engpass. Das ist meistens das, was wir heute erleben. Optimierst du danach, läuft der Produktionsschritt irgendwann leer, weil der Engpass zu langsam liefert.

Warum die Studien widersprüchlich wirken

Die Forschung ist nicht so eindeutig, wie viele Sales- und Produktfolien klingen.

In einer großen NBER-Studie wurden Customer-Support-Agents mit generativer AI im Schnitt produktiver, besonders weniger erfahrene Mitarbeitende. Das ist plausibel. Support hat häufig wiederkehrende Muster, gute Beispiele und relativ klare Rückmeldungen.

In einem METR-Experiment mit erfahrenen Open-Source-Entwicklern passierte das Gegenteil. Die Entwickler brauchten mit frühen 2025er-AI-Tools in ihrem eigenen Codekontext länger. Auch das ist plausibel. Gewachsene Codebasen sind voller lokaler Entscheidungen, impliziter Standards und Wartungsfolgen.

Beide Ergebnisse erzählen dieselbe Geschichte.

AI hilft, wenn die Aufgabe gut beobachtbar ist und Qualität schnell erkannt wird. AI bremst oder verschiebt Arbeit, wenn Kontext, Urteil und Wartbarkeit schwerer sind als das erste Erzeugen.

Darum ist die Frage „Wie viel Zeit spart AI?“ zu grob.

Die bessere Frage lautet:

Welche Arbeit wird wirklich kleiner, und welche Arbeit wird nur an eine andere Stelle geschoben?

Mehr Output ist eine schlechte Managementmetrik

Viele AI-Programme messen, was leicht zu zählen ist: erzeugte Texte, vorbereitete Tickets, Codezeilen, Agentenläufe, angeblich gesparte Stunden.

Das ist verständlich. Es ist auch gefährlich.

Denn diese Zahlen messen meistens den Anfang der Arbeit. Nicht ihr Ende.

Ein Unternehmen kann mehr Code erzeugen und trotzdem langsamer werden, weil Review, Test und Wartung nicht mithalten. Es kann mehr Content erzeugen und trotzdem schlechter kommunizieren, weil mehr Varianten nicht mehr Klarheit bedeuten. Es kann mehr Analysen erzeugen und trotzdem weniger entscheiden, weil jede Analyse neue Anschlussfragen produziert.

Mehr Bewegung ist noch keine Richtung.

Gute Produktivitätsmessung muss deshalb die ganze Schleife anschauen:

Was wurde erzeugt?
Was wurde davon genutzt?
Was musste korrigiert werden?
Was wurde später teurer?
Was haben Menschen dabei gelernt oder verlernt?

Erst dann sieht man, ob AI Arbeit reduziert oder nur die Bilanz hübscher macht.

Die drei verdeckten Kostenstellen

Die Produktivitätsfalle entsteht meistens an drei Stellen.

1. Review

AI erzeugt plausible Ergebnisse. Genau das ist das Problem. Unsinn sieht nicht mehr aus wie Unsinn, sondern wie ein sauberer Entwurf. Dadurch wird Review anspruchsvoller. Man prüft nicht nur Rechtschreibung, sondern Fachlogik, Kontext, Auslassungen und falsche Sicherheit.

2. Maintenance

James Shore formuliert den Punkt für Code hart: Ein AI-Coding-Agent muss nicht nur Schreibkosten senken, sondern Wartungskosten. Wer doppelt so viel Code erzeugt und die Wartungskosten pro Einheit nicht senkt, baut zukünftige Last.

Das gilt auch für Prozesse, Texte, Automationen und Analysen. Alles, was erzeugt wird, muss später verstanden, gepflegt oder bewusst weggeworfen werden.

3. Lernen

Viele Aufgaben, die heute wie automatisierbarer Kleinkram wirken, waren Lernrampen: Recherche, erste Entwürfe, Dokumentation, Variantenbildung, Ticketanalyse, kleine Kundenfälle. Das war nicht immer effizient. Aber dort haben Menschen gelernt, wie gute Arbeit aussieht.

Wenn AI diese Aufgaben ersetzt, ohne neue Lernräume zu schaffen, spart man kurzfristig Zeit und beschädigt langfristig Urteilskraft. Das ist eine schlechte Wette.

Der Pilot beweist zu wenig

Viele AI-Piloten sehen gut aus, weil der Test freundlich ist.

Der Use Case ist sauber. Die Daten sind begrenzt. Die Nutzer sind motiviert. Die Aufgabe ist klar. Das Risiko ist klein. Danach steht auf der Folie: funktioniert.

Kann sein.

Nur beweist ein Pilot oft nur, dass AI im Aquarium schwimmen kann. Er beweist nicht, dass sie im Hafenverkehr überlebt.

Vor dem Rollout braucht es deshalb unfreundliche Fragen:

Was passiert bei schmutzigen Daten?
Wer merkt subtile Fehler?
Welche Ausnahmen machen das System langsam?
Welche Reviewlast entsteht nach drei Monaten?
Welche Aufgabe war vorher Lernrampe für Menschen?

Ohne diese Fragen optimiert die Organisation auf Vorführbarkeit. Nicht auf Betrieb.

Gerade in deutschen Unternehmen ist das kein Detail. Viele Prozesse hängen ohnehin an gewachsenen Systemen, Bereichsgrenzen und Freigabeschleifen. Wenn AI dort nur die Erstellung beschleunigt, landet die zusätzliche Last fast automatisch bei den Stellen, die schon vorher knapp waren: Fachreview, IT, Legal, Compliance, Führung.

Was Führung jetzt klären muss

Führung muss AI-Produktivität nicht bremsen. Sie muss verhindern, dass ein schnellerer Generator mit einer Produktivitätsstrategie verwechselt wird.

Dafür braucht es eine einfache Betriebsrechnung.

Output: Was wird schneller oder häufiger erzeugt?
Qualität: Was davon ist wirklich nutzbar?
Review: Wer prüft es, mit welchen Kriterien, in welcher Zeit?
Maintenance: Was muss später gepflegt, repariert oder gelöscht werden?
Lernen: Wer baut noch Urteilskraft auf?

Das ist weniger elegant als eine große AI-Roadmap. Dafür ist es näher an der Arbeit.

Die wichtigste Managementfrage lautet:

Welche zusätzliche Prüf-, Wartungs- und Lernfähigkeit bauen wir parallel zur neuen Output-Fähigkeit auf?

Wenn darauf keine klare Antwort existiert, ist die Produktivitätsfolie noch keine Produktivitätsstrategie.

Sie ist nur ein Tachometer ohne Bremsprüfung.

Der eigentliche Test

Vor dem nächsten AI-Produktivitätsreport sollten vier Sätze schriftlich beantwortet sein:

Diese Output-Zahl kann steigen, ohne dass echter Wert entsteht: …
Diese neue Review- oder Wartungslast entsteht durch AI: …
Diese Lernrampe verlieren wir, wenn wir den Prozess automatisieren: …
Diese Person oder Rolle darf am Ende sagen: gut genug, nicht gut genug, stoppen: …

Wenn diese Antworten fehlen, ist das Problem nicht die AI.

Dann fehlt dem Unternehmen das Betriebssystem für AI-Arbeit.

AI-Produktivität entsteht nicht dort, wo mehr erzeugt wird. Sie entsteht dort, wo ein System mehr erzeugen kann, ohne Review, Wartbarkeit und Urteilskraft zu beschädigen.

Navigation

Executive Briefing: Mehr Output ist noch keine Produktivität

Bleib auf dem Laufenden

Der Engpass wandert

Warum die Studien widersprüchlich wirken

Mehr Output ist eine schlechte Managementmetrik

Die drei verdeckten Kostenstellen

Der Pilot beweist zu wenig

Was Führung jetzt klären muss

Der eigentliche Test

Tiefer einsteigen

Evaluation ist die neue Führungsarbeit

Wer baut eure Urteilskraft?

Was wollt ihr eigentlich?