Das KI-Vertrauensproblem: Wenn die Arbeit zu leicht wird
Früher signalisierte ein Strategiedeck zumindest Aufwand. Heute kann es auch heißen: Jemand hat ein Modell laufen lassen und die Prüfung an den Kunden ausgelagert.
Praktischer Test zum Essay
Drei Vorlagen für ein Gespräch mit einer KI: Ziel klären, Widersprüche prüfen, Delegierbarkeit testen. Du bekommst keine fertige Strategie und keine Tool-Empfehlung.
Vorlagen öffnenVor einiger Zeit machte ein kleines Experiment die Runde: Ein echtes Monet-Gemälde wurde als angeblich KI-generiertes Bild gezeigt. Die Reaktionen kippten sofort. Schlechte Komposition. Generischer Look. AI Slop.
Das Bild war noch immer ein Monet. Nur die vermutete Provenienz war eine andere. Und die daraus folgende Bewertung.
Genau deshalb ist der Fall interessant. Menschen bewerten nicht nur ein Ergebnis. Sie bewerten auch die angenommene Mühe, das Urteil und die Absicht dahinter. Und im Fall eines Monets auch die angenommene Wertigkeit eines Kunstwerks von Monet.
Im Museum und auf Twitter ist das eine hübsche Pointe. Bei dir im Business wird es schnell unbequem. Und im Worst Case: teurer.
Denn dieselbe Frage stellt sich inzwischen bei jedem Strategiedeck, jedem Kundenangebot, jeder Marktanalyse: Hat hier jemand nachgedacht, evaluiert, geprüft und Verantwortung übernommen? Oder hat jemand nur ein KI-Modell gepromptet?
Für Dienstleister, Beratungen und Agenturen wird diese Frage ganz schnell unangenehm, weil sie an einen alten und meist stillen Vertrag rührt: Der Kunde hat noch nie einfach Folien gekauft. Noch nie "nur" das Ergebnis bezahlt. Gekauft wurde auch und besonders die Annahme, dass hinter den Folien geprüftes Urteil liegt. Und auch das war oftmals mehr Schein als Sein.
Praktischer Test: Die drei Vorlagen zum Essay prüfen, ob ein Deck, Konzept oder Angebot nur professionell aussieht oder wirklich verteidigbar ist. Ihr bekommt keinen Folienschreiber, sondern Workslop-Check, Prüfspuren-Audit und Steering-Verteidigungstest.
Bleib auf dem Laufenden
Erhalte eine Nachricht, wenn ein neuer Essay erscheint. Jederzeit abbestellbar.
Das Deck war nie nur das Deck
Ein Strategiedeck ist ein seltsames Produkt.
Es sieht aus wie ein Artefakt. 40 Slides, sauberes Layout, klare Struktur, Diagramme, Quellen, Empfehlungen. Man kann es verschicken, präsentieren, versionieren, archivieren. Am Ende bleibt eine Datei.
Aber bezahlt wird nie nur diese Datei.
Ein Kunde kauft bei einer Beratung oder Agentur Kontext- und Kategorieverständnis. Auswahl. Priorisierung. Widerspruch. Branchengefühl. Politische Lesbarkeit. Die Fähigkeit, aus zu viel Material eine belastbare Richtung zu machen. Und ein Stück Risikoabsicherung: Wenn ich diese Empfehlung intern weitertrage, stehe ich nicht völlig alleine da.
Das Deck ist deshalb nicht der eigentliche Wert. Es ist der sichtbare Beleg für Denken, Expertise und Verantwortung.
Natürlich wusste auch früher jeder, dass viele Slides nicht vom Partner oder Seniorstrategen persönlich gebaut wurden. Junioren recherchieren, strukturieren, bauen Tabellen, ziehen Screenshots, schreiben erste Textblöcke, formatieren nachts noch Folien. Das war nie das Geheimnis.
Der unausgesprochene Vertrag war ein anderer:
Billige Produktionsarbeit, aber unter teurer Verantwortung.
Ein Partner, eine Strategin, ein Creative Director oder ein Senior Consultant hatte den Rahmen gesetzt. Jemand hatte die Annahmen geprüft. Jemand hatte entschieden, was nicht ins Deck kommt. Jemand stand im Zweifel dafür gerade.
Ob das immer so war, ist eine andere Frage. Viele Decks waren auch früher nur hübsch sortierte und maximal schwach belegte Vermutung. Aber der Wert professioneller Dienstleistung hing trotzdem an dieser Erwartung: Hinter dem Artefakt steht ein System aus Erfahrung, Methode und Verantwortung.
Ich glaube tatsächlich, dass KI diesen "Gesellschaftsvertrag" nicht deshalb beschädigt, weil sie die eigentliche Produktionsarbeit beschleunigt. Sie beschädigt ihn aber dann, wenn die Verantwortungsübernahme unsichtbar wird.
B2B kippt anders als B2C
Im Konsum ist der Mechanismus leicht zu sehen. Wenn ein Bild, ein Text, ein Song oder ein Geschenk nach KI aussieht, kippt oft die Wahrnehmung. Es wirkt weniger persönlich, weniger mühevoll, weniger echt.
Die B2C-Frage lautet:
Ist das wirklich für mich gemacht?
Im B2B liegt die Sache anders. Da fragt niemand ernsthaft, ob eine Marktanalyse mit Liebe gemacht wurde. Es geht nicht um Romantik. Es geht um Verantwortbarkeit.
Die B2B-Frage lautet:
Kann ich mich damit in ein Steering stellen, ohne dass mir das Ding um die Ohren fliegt?
Das klingt rationaler. Ist es aber nur teilweise. Auch B2B ist voller Signale, Abkürzungen und stiller Wahrnehmungslogik. Nur heißen sie dort nicht Authentizität, sondern Due Diligence, Senior Attention, Track Record, Methodik, Governance, Qualitätssicherung.
Das sind keine weichen Extras. Das sind Vertrauenssignale unter Unsicherheit.
Gerade Professional Services sind in dieser Hinsicht ein Spezialfall. Die Qualität ist vor dem Kauf schwer zu prüfen. Oft ist sie sogar nach dem Kauf nicht eindeutig messbar. War die Strategie gut, weil sie richtig war? Oder weil der Markt zufällig geholfen hat? War die Beratung schlecht, weil die Empfehlung falsch war? Oder weil die Organisation sie nie ernsthaft umgesetzt hat?
Ökonomen nennen solche Leistungen Credence Goods: Güter, bei denen der Käufer die Qualität auch nach der Leistung nur begrenzt beurteilen kann. Beratung, Audit, Strategie, Marktforschung, Rechtsberatung, ein Teil von Medizin. Man kauft Expertise unter Unsicherheit.
Je schwerer echte Qualität direkt prüfbar ist, desto wichtiger werden Signale.
Marke ist ein Signal. Seniorität ist ein Signal. Methodik ist ein Signal. Ein sauberer Prozess ist ein Signal. Ein Review durch erfahrene Leute ist ein Signal. Auch sichtbare Mühe war ein Signal.
Nicht, weil Mühe immer Qualität bedeutet. Das wäre Unsinn. Viel Mühe produziert viel Mittelmaß. Aber Mühe signalisierte zumindest: Hier hat jemand Aufmerksamkeit investiert. Hier wurde nicht nur schnell etwas ausgeworfen.
Wenn jetzt jeder in kurzer Zeit ein professionell aussehendes Deck erzeugen kann, hört professionelles Aussehen auf, ein solches wirksames Signal zu sein.
Die Oberfläche trägt nicht mehr
Andrea C. Morales zeigte 2005 im Journal of Consumer Research, dass Konsumenten Firmen für wahrgenommene zusätzliche Mühe belohnen: höhere Zahlungsbereitschaft, bessere Bewertung, stärkere Präferenz, selbst wenn die tatsächliche Produktqualität nicht steigt. Interessant ist die Einschränkung: Wenn die Mühe als bloßer Überzeugungstrick gelesen wird, verschwindet der Effekt.
Das passt unangenehm gut zu KI.
Mühe war nie ein sauberer Qualitätsbeweis. Aber sie war ein sozial brauchbarer Proxy. Wenn etwas sichtbar Arbeit gekostet hatte, wirkte es zumindest ernst gemeint. Ein individuell formuliertes Angebot. Ein kuratierter Marktüberblick. Ein sauber argumentiertes Deck. Eine Analyse, in der jemand erkennbar die richtigen Fragen gestellt hatte.
KI entkoppelt Ergebnis und Mühe.
Das Artefakt sieht fertig aus. Die Datei ist sauber. Die Sprache ist glatt. Die Struktur ist plausibel. Vielleicht ist sogar das Layout besser als vorher.
Aber der Empfänger fragt sich:
Hat das eigentlich jemand geprüft?
Diese Frage ist neu in ihrer Alltäglichkeit. Früher konnte ein schlechtes Deck auch schlampig sein. Heute kann ein schlampiges Deck exzellent aussehen.
Das ist gefährlicher.
Schlechte Arbeit, die schlecht aussieht, ist leicht zu erkennen. Schlechte Arbeit, die professionell aussieht, verschiebt die Kosten zum Empfänger. Der muss dann prüfen, wo der Absender gespart hat.
Workslop ist das Frühwarnsystem
Für diesen Mechanismus gibt es inzwischen einen brauchbaren Namen: Workslop.
Ein HBR-Artikel von BetterUp Labs und dem Stanford Social Media Lab beschreibt Workslop als KI-generierten Arbeitsoutput, der wie gute Arbeit aussieht, aber die Aufgabe nicht wirklich voranbringt. Polierte Berichte, strukturierte Slides, lange Zusammenfassungen, denen Substanz, Kontext oder echte Entscheidungsvorbereitung fehlen.
Achtung: Der wichtige Punkt ist nicht, dass solche Arbeit schlecht ist. Denn schlechte Arbeit gab es immer. Und wird es immer geben.
Der wichtige Punkt ist: Workslop verschiebt den Aufwand für Denkarbeit.
Spare ich mir Reflexion, Klärung, Prüfung und Auswahl, muss der Empfänger nach Erhalt rekonstruieren, was gemeint war, was fehlt, was stimmt und was hingegen nur plausibel klingt.
Meine "schnelle Arbeit" ist dann keine Produktivität. Sie ist Verlagerung. Teure Verlagerung. Stellt euch vor, 30 seniorigen Mitarbeitern wird ein Deck präsentiert, das einen neuen Prozess beschreibt. Professionelle Folien, schlaue Sätze, gute Illustrationen und Grafiken. Aber niemand hat die Frage gestellt, ob der Prozess umsetzbar ist. Oder ob der Prozess in 40 Prozent der Fälle mit Kanonen auf Spatzen schießt und jegliche Chance auf Ertrag durch einen zu großen Wasserkopf zunichtemacht.
Die HBR-Autoren berichten aus einer laufenden Befragung mit 1.150 US-Vollzeitbeschäftigten: Rund 40 Prozent hatten im letzten Monat Workslop erhalten. Betroffene schätzten, dass sie pro Fall im Schnitt eine Stunde und 56 Minuten damit verbringen, diesen Output zu klären, zu prüfen oder neu zu machen. Besonders betroffen seien Professional Services und Technology.
Und ja, wenn wir ehrlich sind: Jeder von uns hat doch schon mal AI Workslop erhalten. Und Human Slop, bevor wir überhaupt an KI gedacht hatten.
Noch interessanter ist laut HBR der soziale Schaden. Empfänger bewerten Menschen, die ihnen Workslop schicken, anschließend als weniger kreativ, weniger fähig, weniger zuverlässig. 42 Prozent sahen den Sender als weniger vertrauenswürdig. 37 Prozent als weniger intelligent.
Workslop-Tax. Der eigentliche, in keiner Bilanz messbare Kostenfaktor.
Nicht nur Rework. Vertrauensverlust.
Für interne Zusammenarbeit ist das nicht nur unangenehm. Für Dienstleister ist es existenzbedrohlich. Denn wenn der Kunde das Gefühl bekommt, dass er nicht nur die Leistung bezahlt, sondern danach auch noch die Qualitätsprüfung übernehmen muss, ist der ökonomische Vertrag gebrochen.
Das ist keine Zeitersparnis beim Dienstleister. Es ist Outsourcing der eigentlichen Leistung an den Kunden.
Was Kunden wirklich kaufen
Das erklärt, warum die These im B2B nicht einfach dieselbe ist wie im B2C.
Im B2C beschädigt KI-Verdacht häufig die Geschichte des Objekts. Ein handgeschriebener Brief, der aus ChatGPT kommt, wirkt anders. Ein Bild, das angeblich keine menschliche Hand gesehen hat, wird anders interpretiert. Der Wert kippt, weil Nähe, Authentizität oder Status beschädigt werden.
Im B2B beschädigt KI-Verdacht etwas anderes: die Annahme, dass hinter einem Artefakt Verantwortungsübernahme liegt.
Ein Vorstand kauft kein Deck, weil Decks schön sind. Ein Marketing Director kauft kein Markenkonzept, weil die Folien hübsch sortiert sind. Ein CIO kauft keine Architektur-Story, weil das Diagramm symmetrisch ist.
Sie kaufen etwas, das intern weitergetragen werden kann.
Das Artefakt muss deshalb nicht nur überzeugend aussehen. Es muss verteidigbar sein.
Verteidigbar heißt:
- Die Annahmen sind klar.
- Die Quellen tragen.
- Die Alternativen wurden nicht nur vergessen.
- Die Empfehlung passt zum Kontext.
- Die Risiken sind benannt.
- Die Person, die es präsentiert, kann mehr erklären als auf der Folie steht.
Genau hier liegt die neue Schwachstelle. KI kann sehr schnell die Oberfläche der Verteidigbarkeit erzeugen. Sie kann Struktur, Ton, Managementsprache und Methodik imitieren. Aber sie übernimmt keine Verantwortung.
Ein Modell kann ein Deck schreiben. Es kann nicht im Steering sitzen und sagen: Ja, ich habe verstanden, warum diese Empfehlung unter diesen Randbedingungen gilt.
Zumindest nicht in dem Sinn, in dem Organisationen Verantwortung verstehen.
Vier Arten von Aufwand
Der Fehler wäre jetzt, Aufwand zu romantisieren.
Viele Tätigkeiten, die früher teuer waren, waren nur Produktionsreibung. Folien ausrichten. Varianten bauen. Rohtexte formulieren. Tabellen vereinheitlichen. Quellen zusammensuchen. Erste Zusammenfassungen schreiben. Niemand sollte ernsthaft dafür kämpfen, dass Menschen diese Arbeit weiterhin langsam machen, nur damit es nach Ernsthaftigkeit aussieht.
Die bessere Unterscheidung ist einfacher:
Produktionsaufwand ist die Arbeit am Artefakt selbst: schreiben, formatieren, zusammenfassen, visualisieren, Varianten erzeugen. Diesen Aufwand darf KI reduzieren. Oft sollte sie das sogar.
Klärungsaufwand ist die Arbeit vor dem Output: Was ist eigentlich die Frage? Welche Entscheidung soll vorbereitet werden? Welche Zielkonflikte sind real? Welche Informationen fehlen? Was wäre ein gutes Ergebnis? Dieser Aufwand darf nicht verschwinden. Sonst erzeugt KI nur eine professionellere Form der Unklarheit. Das ist Spezifikation. Entscheidend für die spätere Qualität und Aussagekraft.
Prüfaufwand ist die Arbeit nach dem Output: Stimmen die Quellen? Tragen die Annahmen? Sind die Gegenargumente fair? Fehlt ein wichtiger Fall? Ist das nur plausibel oder belastbar? Dieser Aufwand muss sichtbarer werden, nicht unsichtbarer. Das ist Evaluation. Die Versicherung für Qualität und Mehrwert.
Verantwortungsaufwand schließlich ist die Arbeit, für eine Empfehlung geradezustehen. Nicht nur juristisch. Auch sozial, politisch, fachlich. Wer sagt: Diese Richtung empfehle ich, obwohl ich die Unsicherheit kenne? Wer erklärt, warum die verworfene Alternative wirklich verworfen wurde?
KI darf Produktionsaufwand entfernen. Für mich sollte sie es sogar.
Aber wenn sie Klärung, Prüfung und Verantwortung gleich mit entfernt, entsteht Workslop.
Dann wird Output billig und Vertrauen teuer, weil es verloren geht.
Transparenz ist kein Qualitätssignal
Eine naheliegende Antwort lautet: Dann müssen wir eben offenlegen, wo KI eingesetzt wurde.
Das klingt sauber. Es reicht aber nicht.
"Mit KI erstellt" ist kein Qualitätssignal. Es ist zunächst nur eine Herkunftsangabe. In manchen Kontexten wirkt es sogar wie ein Warnhinweis: Achtung, möglicherweise ungeprüft.
Die bessere Frage lautet nicht:
Wurde KI benutzt?
Sondern:
Wo ist das menschliche Urteil sichtbar?
Ein gutes KI-beschleunigtes Deck müsste nicht verschweigen, dass KI beteiligt war. Aber es müsste zeigen, wo die Verantwortung liegt:
- Welche Fragestellung wurde vorab gesetzt?
- Welche Quellen wurden genutzt und welche verworfen?
- Welche Annahmen tragen die Empfehlung?
- Welche Alternativen wurden geprüft?
- Welche Risiken bleiben offen?
- Wer hat fachlich reviewed?
- Was ist noch Hypothese, was ist belastbarer Befund?
Das klingt nüchtern. Ist es auch. Genau deshalb funktioniert es.
Die Zukunft professioneller Dienstleistung liegt nicht darin, KI-Spuren zu verstecken oder künstliche Handarbeit zu simulieren. Das wäre Theater.
Die Zukunft liegt darin, neue und klare Qualitätssignale zu bauen.
Nicht: Schaut mal, wie viel Arbeit wir hatten.
Sondern: Schaut mal, wo wir gedacht, geprüft und entschieden haben.
Ehrlichkeitstest
Erstens: Nicht jeder Kunde interessiert sich für Aufwand. Bei vielen Leistungen zählt nur das Ergebnis. Wenn eine Tabelle sauber bereinigt, ein Meeting ordentlich zusammengefasst oder ein Boilerplate-Text brauchbar formuliert ist, muss niemand eine Geschichte über menschliche Anstrengung erzählen. Produktionsaufwand war oft nur teuer, nicht wertvoll.
Zweitens: Aufwand war auch früher ein schlechter Beweis. Lange Decks, späte Nächte und viele Beteiligte konnten genauso gut schlechte Organisation signalisieren. Wer derartige Nachtschichten romantisiert, verteidigt am Ende PowerPoint-Folklore.
Drittens: Der KI-Verdacht wird sich normalisieren. Was heute nach Abkürzung klingt, kann morgen Standard sein. Viele Empfänger werden nicht dauerhaft beleidigt sein, nur weil ein Modell geholfen hat.
Viertens: Auch Menschen produzieren Slop. KI hat Oberflächlichkeit nicht erfunden. Sie skaliert sie nur besser.
Ich bin aber auch überzeugt, dass diese Einwände die These gerade nicht schwächen.
Denn es geht gerade nicht darum, die alte Vorstellung von mit Blut und Schweiß erkaufter Qualität zu retten. Es geht darum, schlechte Proxies durch bessere zu ersetzen.
Wenn Produktionsaufwand als Qualitätssignal verschwindet, brauchen Organisationen etwas Besseres: sichtbare Klärung, sichtbare Prüfung, sichtbare Verantwortung.
Was Dienstleister zeigen müssen
Für Beratungen, Agenturen und Dienstleister ist die praktische Konsequenz unangenehm einfach.
Ein gutes Ergebnis reicht nicht mehr, wenn der Weg dorthin als Abkürzung gelesen wird.
Das heißt nicht, dass jeder Arbeitsschritt offengelegt werden muss. Kunden kaufen keine Making-of-Dokumentation. Aber sie brauchen genug Signale, um das Ergebnis als belastbar zu lesen.
Vielleicht wird die eigentliche Leistung künftig weniger im finalen Artefakt sichtbar und stärker in den Spuren darum herum:
- ein klares Briefing mit Entscheidungsfrage
- ein kurzes Assumption Log
- eine Seite mit verworfenen Alternativen
- ein Quellen- und Evidenzraster
- ein Senior Review, der mehr ist als Name-dropping
- eine explizite Unsicherheitsnotiz
- eine Empfehlung, die auch sagen kann, was sie nicht weiß
Das muss nicht bürokratisch werden. Im Gegenteil. Gute Signale sind knapp.
Ein Kunde braucht nicht 30 Seiten Methodik. Er braucht drei Stellen, an denen sichtbar wird: Hier wurde nicht nur erzeugt. Hier wurde beurteilt.
Für interne Teams gilt dasselbe. Wer seinem Chef, seinem Steering oder seinem Team KI-beschleunigten Output schickt, sollte nicht nur das Ergebnis weiterleiten. Er sollte mitliefern, was daran geprüft, entschieden oder bewusst offengelassen wurde.
Sonst spart er eigene Zeit und verbraucht fremde.
Das ist kein Effizienzgewinn. Das ist eine verdeckte Kostenverschiebung.
Die neue Frage
Der Monet-Prank ist deshalb mehr als ein nettes Beispiel aus dem Marketing-Internet. Er zeigt, wie schnell Wahrnehmung kippt, wenn sich die vermutete Entstehungsgeschichte ändert.
Im Business kippt sie nicht, weil Menschen plötzlich gegen Technik sind. Sie kippt, wenn das alte Signal "hier steckt Arbeit drin" verschwindet und kein neues Signal an seine Stelle tritt.
Früher konnte ein Strategiedeck zumindest den Eindruck vermitteln: Da hat jemand Zeit investiert.
Heute kann dasselbe Deck auch heißen: Da hat jemand Claude zwanzig Minuten laufen lassen und die Prüfung an mich ausgelagert.
Der Unterschied liegt nicht im Layout. Er liegt in sichtbarem Urteil.
Die entscheidende Frage für professionelle Arbeit lautet deshalb nicht mehr: Wie viel davon war menschlich?
Sie lautet:
Wer hat das geprüft?
Und wenn darauf niemand eine gute Antwort hat, ist das Problem nicht die KI.
Dann war der Wert des Decks schon vorher dünner, als alle zugeben wollten.
Quellen
- HBR: AI-Generated "Workslop" Is Destroying Productivity, 2025.
- Andrea C. Morales: Giving Firms an "E" for Effort: Consumer Responses to High-Effort Firms, Journal of Consumer Research, 2005.
- Christine Moorman, Gerald Zaltman, Rohit Deshpandé: Relationships between Providers and Users of Market Research, Journal of Marketing Research, 1992.
- Patricia M. Doney, Joseph P. Cannon: An Examination of the Nature of Trust in Buyer-Seller Relationships, Journal of Marketing, 1997.
- Phillip Nelson: Information and Consumer Behavior, Journal of Political Economy, 1970.
Neue Ausgaben direkt per Mail? Newsletter abonnieren
Praktischer Test zum Essay
Drei Vorlagen für ein Gespräch mit einer KI: Ziel klären, Widersprüche prüfen, Delegierbarkeit testen. Du bekommst keine fertige Strategie und keine Tool-Empfehlung.
Vorlagen öffnenTiefer einsteigen
Drei Anschlussstücke, wenn du den Gedanken vertiefen willst.
Wer spezifiziert hier eigentlich?
Warum der Engpass der Wissensarbeit nicht Produktion ist, sondern die Fähigkeit zu sagen, was man will. Über Taste, Specification und Evaluation — …
Evaluation ist die neue Führungsarbeit
Viele Unternehmen bauen AI-Kontrolle auf. Was oft fehlt, ist die Schicht darüber, die prüft, ob diese Steuerungslogik überhaupt Wahrheit abbildet.
Wer baut eure Urteilskraft?
Viele Unternehmen führen AI als Produktivitätshebel ein. Dabei automatisieren sie oft genau die Arbeitsschichten, auf denen später Qualität und …