Plausibel klingender Unsinn
Drei gezackte Oberflächen übereinander: Die Fähigkeiten der Modelle, die Evaluationsmethoden und die Intuition der Nutzer sind alle unzuverlässig. Warum der Aufwand für Evaluation steigt, wenn die Modelle besser werden.
Kurze Beobachtungen, Funde, Gedanken-in-Arbeit. Kein fertiges Argument. Kein Prompt Kit. Denken in Arbeit.
Drei gezackte Oberflächen übereinander: Die Fähigkeiten der Modelle, die Evaluationsmethoden und die Intuition der Nutzer sind alle unzuverlässig. Warum der Aufwand für Evaluation steigt, wenn die Modelle besser werden.
Anthropic gibt Claude die Kontrolle über Maus und Tastatur. Was sich ändert, wenn AI nicht mehr Texte produziert, sondern Handlungen ausführt – und warum der Permission-Dialog die Governance-Frage nicht beantwortet.