Wer heute im Alltag mit KI arbeitet, hat schnell das Gefühl: „Läuft doch.“ Anthropic hält mit einer neuen Auswertung dagegen – und zeigt, dass Nutzung nicht automatisch Kompetenz bedeutet. Mit dem frisch veröffentlichten „AI Fluency Index“ will das Unternehmen messen, wie souverän Menschen mit KI-Werkzeugen umgehen.
Ein spannender Befund dabei: Je „fertiger“ und professioneller Claudes Ergebnisse wirken, desto seltener werden sie kritisch geprüft. Und genau das ist im Beratungsalltag eine der typischen Fallen – weil ein sauber formulierter Output oft wie ein geprüfter Output wirkt.
In der Analyse hat Anthropic knapp 10.000 anonymisierte Claude-Gespräche aus dem Januar ausgewertet. In 12,3 Prozent der Dialoge entstanden sogenannte Artefakte: also konkrete Produkte wie Code, Dokumente oder interaktive Tools. Gerade dort waren Nutzer zu Beginn oft besonders präzise in ihren Vorgaben – aber diese Sorgfalt führte nicht zu mehr Kontrolle, sondern eher zum Gegenteil. In Artefakt-Gesprächen wurde fehlender Kontext seltener bemerkt, Fakten seltener überprüft und die Argumentation seltener hinterfragt. Gleichzeitig verweist Anthropic darauf, dass Claude ausgerechnet bei den komplexesten Aufgaben die größten Schwierigkeiten hat – also genau dort, wo man sich besonders ungern auf „sieht gut aus“ verlassen sollte.
Anthropic diskutiert mehrere mögliche Ursachen: Ein Ergebnis, das fertig aussieht, wird auch als fertig behandelt. Bei Gestaltungs- oder Tool-Aufgaben zählt zudem oft eher Funktion und Ästhetik als Faktengenauigkeit. Und es ist gut möglich, dass die eigentliche Prüfung außerhalb des Chats passiert, etwa durch Tests im eigenen System.
Der stärkste Zusammenhang im Bericht betrifft jedoch Iteration: Wer im Gespräch nachfasst, verfeinert und weiterarbeitet, nutzt KI deutlich kompetenter. 85,7 Prozent der Gespräche zeigten dieses iterative Vorgehen. Diese Dialoge enthielten im Schnitt deutlich mehr Kompetenz-Indikatoren als Gespräche, in denen die erste Antwort einfach akzeptiert wurde. Besonders deutlich wird das bei der kritischen Prüfung: Iterierende Nutzer hinterfragten die Argumentation um ein Vielfaches häufiger und identifizierten fehlenden Kontext deutlich öfter.
Interessant ist auch die „Prompting-Lücke“: Nur in rund 30 Prozent der Gespräche sagten Nutzer Claude explizit, wie die Zusammenarbeit ablaufen soll – etwa mit Regeln wie „Widersprich mir, wenn Annahmen falsch sind“ oder „Erkläre erst dein Vorgehen, dann liefere die Antwort“. Solche Leitplanken verändern die Qualität eines KI-Dialogs oft stärker als man denkt.
Aus den Daten leitet Anthropic drei praktische Empfehlungen ab: Die erste Antwort als Startpunkt betrachten, polierte Ergebnisse gezielt hinterfragen und den Arbeitsmodus explizit festlegen. Dazu passt ein weiterer Punkt aus dem Bericht: Viele wichtige Kompetenzdimensionen sind im Chat gar nicht sichtbar – zum Beispiel, ob KI-Inhalte später transparent gegenüber Dritten gekennzeichnet werden. Anthropic will diese Bereiche künftig mit qualitativen Methoden untersuchen.
