Das falsche Black-Box-Problem
Letzte Woche: Acht Führungskräften in einem Workshop. Die Aufgabe war simpel: Welches institutionelle Wissen braucht ein Agent, damit er in eurem Unternehmen sinnvoll arbeiten kann?
Nach vier Stunden stand eine Liste mit 47 Wissensbausteinen an der Wand.
31 davon existierten nirgendwo als Dokument.
12 davon konnte niemand im Raum vollständig erklären.
Und bei 4 wurde es still, weil allen klar war: Die offizielle Version ist nicht die echte.
Seitdem ich das gehört habe, lässt mich diese Verteilung nicht los. Nicht wegen der Zahl. Wegen der Struktur.
Die ersten 31 sind Fleißarbeit. Wissen ist da, nur nirgends sauber festgehalten.
Die 12 danach sind schwerer. Da stößt man auf Wissen, das in der Praxis funktioniert, sich aber nicht sauber in Worte pressen lässt.
Und die letzten 4 sind das eigentliche Problem. Nicht weil sie besonders komplex wären. Sondern weil es Gründe gibt, sie nicht offen hinzuschreiben.
Genau dort kippt die Diskussion über Black Boxes.
Viele Unternehmen reden noch immer so, als läge das Hauptproblem bei der Maschine. Kann man dem Modell trauen? Ist sein Entscheidungsweg nachvollziehbar? Lässt sich erklären, warum der Agent zu einem Ergebnis gekommen ist?
Das sind legitime Fragen. Nur verschiebt sich das Problem gerade.
Die Maschine wird erklärbarer. Die Organisation nicht.
Anthropic kann mittlerweile nachvollziehbar zeigen, welche internen Muster in Modellen aktiviert werden. Model Specs machen die normativen Leitplanken expliziter. Auditoren werden in den kommenden Jahren deutlich mehr über das Innenleben von Hochrisiko-Systemen wissen wollen und können als heute. Ausgerechnet in dem Moment, in dem AI technisch lesbarer wird, fällt vielen Unternehmen auf, dass sie ihre eigene Entscheidungslogik nicht lesen können.
Die eigentlich unbequeme Frage lautet deshalb nicht mehr: Ist AI eine Black Box?
Sondern: Warum ist euer Unternehmen noch eine?
Die asymmetrische Opazität
Wenn heute von Erklärbarkeit gesprochen wird, geht der Blick fast automatisch auf das Modell. Reasoning Chains. Traces. Safety Layers. Evaluations. Alles wichtig.
Aber stellt dieselbe Frage einmal an die Organisation.
Warum wurde Kunde X priorisiert?
Warum hat Produktidee Y nie Budget bekommen?
Warum dauert Freigabe A formal drei Wochen, informell aber zwei Telefonate?
Warum bekommt Bereich B zuverlässig Ressourcen, obwohl die offiziellen Prioritäten woanders liegen?
In den meisten Unternehmen bekommt man auf diese Fragen keine Erklärung. Man bekommt eine plausible Geschichte.
Das ist etwas anderes.
Chris Argyris hat dafür vor Jahrzehnten die saubere Unterscheidung geliefert: Es gibt die espoused theory, also das, was eine Organisation über sich sagt. Und es gibt die theory-in-use, also das Muster, nach dem sie tatsächlich handelt. Genau diese Lücke wird in AI-Projekten plötzlich teuer, weil sie nicht mehr nur kulturell unerquicklich ist. Sie wird operativ relevant.
Solange Menschen den Betrieb zusammenhalten, kann man mit dieser Lücke leben. Menschen lesen zwischen den Zeilen. Sie kennen die Abkürzungen. Sie wissen, welche Excel-Datei wichtiger ist als das offizielle Dashboard und wen man anrufen muss, wenn das Ticket-System nicht weiterhilft.
Sobald ein Agent mitarbeiten soll, reicht das nicht mehr.
Der Agent arbeitet auf dem, was explizit ist. Auf Regeln, Dokumenten, Schnittstellen, Kriterien. Wenn die offizielle Beschreibung und das reale Verhalten auseinanderfallen, optimiert die Maschine auf die Fiktion.
Dann wirkt der Agent plötzlich dumm, obwohl er nur gehorsam ist.
Die ersten 31: Was einfach nur nie aufgeschrieben wurde
Fangen wir mit dem harmlosesten Teil an.
31 der 47 Wissensbausteine aus dem Workshop waren nicht dokumentiert. Nicht geheim. Nicht unverständlich. Einfach nie aufgeschrieben.
Das klingt zunächst banal. Ist es aber nicht, weil genau an dieser Stelle viele Unternehmen sich selbst belügen. Sie sagen: "Wir haben doch alles in Confluence." Oder: "Dafür gibt es irgendwo ein Playbook." Meistens heißt das nur, dass es Dokumente gibt. Nicht, dass der relevante Kontext darin lebt.
Im Text zum maschinenlesbaren Kontext habe ich das Müller-Problem beschrieben. Die Sonderkonditionen, die echte Preislogik, der Grund, warum Angebot A funktioniert und Angebot B nicht, stecken im Kopf der Leute, die lange genug dabei sind. Solange diese Leute erreichbar sind, funktioniert das System. Es fühlt sich robust an. Es ist es nicht.
Der Schritt von Kopf zu Dokument ist unerquicklich, aber relativ klar. Interviews führen. Entscheidungen nachvollziehen. Artefakte konsolidieren. Widersprüche auflösen. Die Arbeit ist zäh. Politisch ist sie oft noch beherrschbar.
Das sind die 31.
Wer an dieser Stelle schon genervt abwinkt, ist für ernsthafte Agentensysteme noch nicht bereit. Nicht, weil die Technologie fehlt. Sondern weil die eigene Organisation ihr Wissen noch immer wie zufälliges Nebenprodukt behandelt.
Die nächsten 12: Was die Organisation weiß, aber nicht sauber sagen kann
Danach wird es interessanter.
12 Wissensbausteine aus dem Workshop konnte niemand im Raum vollständig erklären. Nicht, weil die Beteiligten ahnungslos gewesen wären. Eher im Gegenteil. Man merkte, dass alle wussten, worum es geht. Nur eben nicht in einer Form, die sich in drei präzisen Sätzen festhalten lässt.
Michael Polanyi hat das berühmte Diktum geprägt: Wir wissen mehr, als wir sagen können.
Das wird in Managementkreisen gern als Kalenderspruch missbraucht. Gemeint ist etwas Härteres. Ein relevanter Teil praktischen Wissens liegt nicht als explizite Regel vor. Er zeigt sich in Urteilen, in feinen Unterscheidungen, in einer gewachsenen Fähigkeit, Situationen richtig zu lesen. Die erfahrene Einkäuferin merkt an zwei Nebensätzen, dass ein Lieferant blufft. Der Serviceleiter hört an einer Formulierung, dass ein Kunde nicht wirklich ein Problem meldet, sondern eine Eskalation vorbereitet. Der Produktionsplaner sieht in einer scheinbar normalen Anfrage schon die Folgeprobleme im Folgemonat.
Dieses Wissen ist real. Es hat wirtschaftlichen Wert. Und es lässt sich oft nur begrenzt in Regeln übersetzen.
Genau deshalb scheitern viele AI-Initiativen nicht erst am Prompting, sondern an einer epistemischen Unterschätzung. Man tut so, als müsse man das vorhandene Wissen nur aus dem System ziehen und sauber aufschreiben. In Wahrheit ist ein Teil davon gar nicht als Satz gespeichert. Er lebt in Vergleichen, Routinen, Beziehungsmustern und feinen Signalen.
Das heißt nicht, dass man kapitulieren sollte. Es heißt nur, dass man das Problem korrekt benennen muss.
Die Aufgabe lautet nicht: "Schreibt alles Wissen auf."
Die Aufgabe lautet: "Findet heraus, welches Wissen sich formalisieren lässt, welches trainiert werden muss und welches vorerst menschliches Urteil bleiben sollte."
Das ist ein anderer Anspruch. Reifer. Ehrlicher. Und für DACH-Unternehmen besonders relevant, weil viele ihrer Wettbewerbsvorteile genau in solchen verdichteten Fähigkeitsbündeln liegen. Nicht in der PowerPoint-Strategie, sondern in der stillen Präzision, mit der eine Organisation komplizierte Situationen zuverlässig behandelt.
Wer diesen Teil ignoriert, baut später Agenten, die auf dem Papier kompetent wirken und in der Praxis an den feinen Unterschieden scheitern.
Die letzten 4: Was nicht ausgesprochen werden soll
Und dann gibt es die vier stillen Wissensbausteine.
Das sind die Stellen, an denen Leute im Raum kurz lachen, wegschauen oder den Satz mit "naja" beginnen.
Nicht, weil sie das Wissen nicht hätten. Sondern weil seine offene Formulierung soziale Kosten hätte.
Hier landet man nicht mehr bei Terrain, sondern bei Intent.
Die offizielle Strategie sagt vielleicht, dass alle Kunden nach Profitabilität priorisiert werden. Tatsächlich bekommen zwei Großkunden Sonderbehandlung, weil der Vorstand dort persönliche Beziehungen pflegt.
Offiziell werden Projekte nach Business Case bewertet. Tatsächlich überlebt ein Projekt, weil es an einer Person hängt, die intern zu mächtig ist, um ihr Thema sterben zu lassen.
Offiziell soll die neue AI-Initiative Prozesse standardisieren. Tatsächlich verteidigen drei Bereichsleiter ihre Sonderlogik, weil diese Sonderlogik Macht, Budget oder Unersetzbarkeit sichert.
Das ist nicht die Schattenseite einer ansonsten rationalen Organisation. Das ist normale Organisation.
Rory Sutherland hat einmal sinngemäß beschrieben, dass die Gründe, die Menschen für Entscheidungen angeben, oft nicht die echten Gründe sind. Aber die angegebenen Gründe erfüllen eine soziale Funktion. Genau das sieht man hier. Die offizielle Begründung wahrt Gesichter, hält Beziehungen intakt und macht Macht nicht direkt sichtbar.
AI-Transformation kollidiert an dieser Stelle nicht mit mangelnder Technologie, sondern mit organisationaler Ehrlichkeit. Wer einem Agenten beibringen will, wie Entscheidungen wirklich fallen, muss offenlegen, wie Entscheidungen wirklich fallen. Und genau das wollen viele Unternehmen nicht. Nicht einmal vor sich selbst.
Deshalb ist "Context Engineering" eben nicht nur Wissensarbeit. Es ist Machtarbeit.
Warum das für AI plötzlich ein teures Problem wird
Man konnte diese Widersprüche schon immer als kulturelle Macke betrachten. Ein bisschen informelle Organisation hier, ein bisschen politische Trägheit dort. Nervig, aber normal.
Mit AI wird daraus etwas anderes.
Denn der Agent unterscheidet nicht zwischen offiziell und tatsächlich, wenn man ihm nur die offizielle Version gibt. Er setzt konsequent das um, was explizit gemacht wurde.
Dann passieren drei Dinge.
Erstens: Der Agent trifft formal korrekte, praktisch falsche Entscheidungen. Er folgt der schriftlichen Priorisierungslogik und landet trotzdem neben der Realität.
Zweitens: Das Unternehmen diagnostiziert den Fehler an der falschen Stelle. Statt zu sagen "unsere Beschreibung der Organisation war falsch", sagt es "der Agent versteht unser Geschäft nicht".
Drittens: Die informelle Organisation wird nicht ersetzt, sondern gestärkt. Menschen bauen dann Workarounds um den Agenten herum. Aus dem versprochenen Standard wird ein zusätzlicher Layer aus Schattenarbeit.
Das ist einer der Gründe, warum so viele frühe AI-Implementierungen zwar beeindruckend klingen, aber im Alltag so schnell in graue Zusatzarbeit umkippen. Die Organisation hat versucht, ihre offizielle Fiktion zu automatisieren. Die Realität musste sich danach wieder ihren Weg suchen.
Der Fehler liegt also nicht darin, dass AI eine Black Box wäre.
Der Fehler liegt darin, dass viele Unternehmen ihre eigene Black Box mit einer Dokumentenablage verwechseln.
Die Therapie-Metapher ist brauchbar, aber nur bis zu einem Punkt
An dieser Stelle hilft eine Analogie aus der Systemtherapie, solange man sie nicht übertreibt.
In dysfunktionalen Familien ist der identifizierte Patient oft nicht das eigentliche Problem. Das sichtbare Symptom trägt nur einen Konflikt aus, den das ganze System mit hervorbringt und gleichzeitig stabilisiert.
Organisationen funktionieren ähnlich. Der "wissenshortende Manager" ist selten das ganze Problem. Das eigentliche Problem ist ein System, das Wissensasymmetrie belohnt. Der Bereich mit der eigenen Excel-Hölle ist nicht nur chaotisch. Er schützt häufig einen Machtvorteil. Die diffuse Prozesslandschaft ist nicht bloß historisch gewachsen. Sie hält oft Zuständigkeiten absichtlich unscharf.
Deshalb greifen die naiven Transparenz-Parolen so selten.
"Wir müssen nur alles dokumentieren" klingt vernünftig. Aber sobald Dokumentation Einfluss, Verhandlungsmacht oder Schutzräume berührt, kommt Widerstand. Nicht immer offen. Oft als vernünftige Sorge formuliert:
"Dafür ist der Fall zu komplex."
"Das lässt sich nicht standardisieren."
"Da verliert man wichtige Nuancen."
Manchmal stimmt das sogar. Genau deshalb ist das Problem unerquicklich. Zwischen echter Komplexität und taktischer Opazität zu unterscheiden, ist die eigentliche Führungsarbeit.
Was das für DACH-Unternehmen besonders relevant macht
In deutschen Diskussionen wird diese Lage oft in zwei schlechte Richtungen verkürzt.
Die eine Richtung ist Silicon-Valley-Romantik. Alles Informelle gilt als dysfunktional. Die Lösung sei totale Transparenz, totale Messbarkeit, totale Standardisierung.
Die andere Richtung ist Kulturromantik. Alles Informelle gilt als wertvolles Erfahrungswissen. Die Lösung sei, die Organisation in Ruhe zu lassen und nur ein paar gute Tools einzuführen.
Beides ist zu einfach.
Gerade im DACH-Raum gibt es viele Unternehmen, in denen still verdichtetes Erfahrungswissen ein echter Wettbewerbsvorteil ist. Mittelstand, Industrie, B2B-Vertrieb, regulierte Umfelder. Dort lebt viel Wert in Nuancen, in lang eingeübten Urteilen, in informellen Koordinationsmustern, die auf dem Organigramm nicht sichtbar sind.
Aber derselbe Raum produziert auch robuste Formen der Selbsttäuschung. Man verwechselt historisch gewachsene Praxis mit zwingender Notwendigkeit. Man verwechselt Machtkompromisse mit vernünftigen Prozessen. Man verwechselt mangelnde Klarheit mit professioneller Komplexität.
Wer AI-Transformation in solchen Kontexten ernsthaft betreibt, braucht deshalb eine härtere Unterscheidung:
Was davon ist verdichtete Intelligenz?
Was davon ist akkumulierte Bequemlichkeit?
Was davon ist Schutz vor realem Risiko?
Und was davon ist nur Schutz vor Sichtbarkeit?
Ohne diese Unterscheidung baut ihr Agenten entweder auf Sand oder ihr zerstört still die wenigen informellen Strukturen, die euch tatsächlich besser machen.
Beides ist teuer.
Drei Fragen vor jedem größeren Agentenprojekt
Keine Checkliste. Eher ein Nüchternheitstest.
Erstens: Wo lebt das relevante Wissen wirklich?
In Köpfen? In PDFs? In Tickets? In stillen Beziehungsmustern? Oder schon in einer Form, mit der eine Maschine arbeiten kann?
Wenn die Antwort überwiegend Kopf, Meeting und Bauchgefühl lautet, ist das kein Argument gegen AI. Es ist ein Argument gegen Selbstüberschätzung.
Zweitens: Was davon ist wirklich schwer zu artikulieren und was davon soll nur nicht artikuliert werden?
Das ist die Kernunterscheidung dieses Textes. Terrain und Intent fühlen sich von außen oft ähnlich an. In beiden Fällen bleibt etwas unscharf. Aber die Gründe sind unterschiedlich. Das eine braucht Geduld, Beobachtung und bessere Formen der Formalisierung. Das andere braucht Mut, Konfliktfähigkeit und manchmal Machtentscheidungen.
Wer beides verwechselt, wählt die falsche Intervention.
Drittens: Was würde passieren, wenn der Agent exakt nach der offiziellen Version eurer Organisation arbeitet?
Nicht nach der echten. Nach der offiziellen.
Wenn euch das Ergebnis unruhig macht, dann habt ihr die eigentliche Diagnose.
Wo ich falsch liegen könnte
Drei Einwände gegen mein eigenes Argument. Ich halte sie für real.
Erstens: Nicht jedes Unternehmen braucht diese Tiefe. Wer einen simplen Service-Chatbot einführt, muss nicht gleich eine organisatorische Tiefenanalyse starten. Es gibt genug AI-Projekte, bei denen saubere Prozesse, brauchbare Daten und ein enger Scope reichen. Wenn ich die Black-Box-Frage auf jede Automatisierung gleich stark anwende, überdehne ich das Argument.
Zweitens: Nicht alles Informelle ist ein Problem. Manche Beziehungen, manche stillen Hilfslinien, manche Formen von situativem Urteil verlieren an Qualität, wenn man sie zu früh in starre Regeln presst. Es gibt informelle Strukturen, die nicht Intransparenz kaschieren, sondern Komplexität handhabbar machen. Wer alles sichtbar machen will, kann genau die Intelligenz beschädigen, die er eigentlich erhalten wollte.
Drittens: Ich könnte die politische Seite überbetonen. Nicht jede Unschärfe ist Machtspiel. Manches ist einfach historisch gewachsen, schlecht dokumentiert oder wirklich schwer zu formalisieren. Wenn man zu schnell Intent unterstellt, wird aus Diagnose Verdacht. Dann schaut man überall nach versteckten Interessen und übersieht die viel banalere Wahrheit: Niemand hat sich die Mühe gemacht, das Terrain sauber zu beschreiben.
Trotzdem bleibt der Kernpunkt stehen.
Die relevante Frage ist nicht: formal oder informell?
Die relevante Frage ist: Welche Form von Informalität trägt Wert, und welche hält nur Widersprüche unsichtbar?
Das Schwierigste an Context Engineering ist nicht, Wissen maschinenlesbar zu machen.
Das Schwierigste ist, sich einzugestehen, was dieses Wissen eigentlich ist.
47 Wissensbausteine.
31 nicht dokumentiert.
12 nicht sauber artikulierbar.
4 nicht aussprechbar.
Die ersten 31 sind Arbeit.
Die 12 danach sind Demut.
Die letzten 4 sind Mut.
Die Maschine wird jedes Quartal erklärbarer.
Euer Unternehmen nicht.
Und der Grund dafür ist nicht zuerst technische Komplexität.
Der Grund ist, dass ihr noch nicht entschieden habt, wie viel Wahrheit eure Organisation aushält.
Direkt anwenden
Dieses Prompt Kit übersetzt die Konzepte des Essays in konkrete Prompts, die du sofort nutzen kannst.
Zum Prompt Kit