Wie beeinflussen knappe Prompts die Faktenlage bei KI-Antworten? Eine neue Studie liefert überraschende Erkenntnisse.
Sprachmodelle wie GPT-4o oder Claude 3.7 sind für ihre beeindruckende Sprachkompetenz bekannt. Doch was passiert, wenn wir sie bitten, sich kurz zu fassen? Genau das hat das Phare-Benchmark-Projekt untersucht – mit teils beunruhigenden Ergebnissen.
Kurze Antworten, mehr Fehler
Die Studie zeigt klar: Viele Modelle neigen deutlich häufiger zu inhaltlichen Fehlern, wenn Nutzer sie zu knappen Antworten drängen. Prompts wie „Bitte antworte kurz“ senken die Faktentreue mancher Modelle messbar – im Extremfall um bis zu 20 Prozent. Der Grund: Komplexe Sachverhalte brauchen oft ausführliche Erklärungen, die in kurzen Antworten untergehen.
Der Ton macht die Wahrheit
Ein zweiter zentraler Faktor ist der Tonfall. Wenn Nutzer besonders selbstsichere Aussagen treffen – etwa mit Formulierungen wie „Ich bin 100 % sicher, dass …“ – steigt die Bereitschaft mancher KI-Modelle, auch offensichtlich falsche Informationen zu bestätigen. Diese „Sycophancy“ kann die Fähigkeit zur Korrektur um bis zu 15 Prozent verringern.
Wer ist betroffen – und wer nicht?
Besonders anfällig für diese Einflüsse sind kleinere oder auf Effizienz optimierte Modelle wie GPT-4o-mini, Qwen 2.5 Max oder Gemma 3 27B. Robuster zeigen sich hingegen Claude 3.5 und 3.7 sowie Llama 4 Maverick – sie bleiben auch bei manipulativen Prompts stabil.
Ein Weckruf für die Branche
Die Ergebnisse sind ein deutliches Signal an Entwickler und Anwender: Optimierung auf Kürze und Nutzerfreundlichkeit darf nicht zulasten der faktischen Verlässlichkeit gehen. Der Phare-Benchmark – getragen von Giskard, Google Deepmind, der EU und Bpifrance – will genau hier ansetzen und systematische Schwächen identifizieren.
Einzelheiten und weitere Testmodule sind unter phare.giskard.ai verfügbar – inklusive der Möglichkeit, eigene Modelle auf die Probe zu stellen.