15. April 2025

Prompt-Design im Fokus: Warum irrelevante Informationen LLMs ins Straucheln bringen

Große Sprachmodelle sind beeindruckend – aber überraschend leicht aus dem Tritt zu bringen.

Wie robust sind KI-Modelle wirklich, wenn man sie mit unnützem Ballast konfrontiert? Eine aktuelle MIT-Studie liefert ernüchternde Antworten – und zeigt, was das für das Prompting in der Praxis bedeutet.

Wenn der Kontext mehr schadet als hilft

Das Massachusetts Institute of Technology hat 13 der aktuell bekanntesten Sprachmodelle auf eine harte Probe gestellt. Mit dabei: Schwergewichte wie Mixtral, Mistral, Llama, GPT-4o – getestet anhand von Schulmathematikaufgaben aus dem GSM8K-Datensatz. Der Clou: Die Aufgaben wurden gezielt mit unterschiedlichen Arten von „Störungen“ versehen – zum Beispiel durch irrelevante Wikipedia-Ausschnitte oder bizarre Anweisungen wie „Füge vor jedes Adjektiv eine Farbe ein“.

Das Ergebnis: Bereits einfache Ablenkungen führten zu teils drastischen Leistungseinbrüchen. Besonders gravierend war der Effekt bei rein irrelevanten Texten, die das Kontextfenster ausfüllten – hier sank die Erfolgsquote im Schnitt um fast 56 Prozent.

Große Modelle – große Probleme?

Erschreckend: Die Größe des Modells bot keinen Schutz vor den Fehlern. Mixtral mit 39 Milliarden Parametern schnitt sogar am schlechtesten ab. Kleinere Modelle landeten im Mittelfeld, während Llama-3.1-8B bei irrelevanter Störung gar keine Antworten mehr lieferte. Selbst das leistungsstarke GPT-4o verlor über 60 Prozent seiner Treffsicherheit.

Die Aufgabenkomplexität – also wie viele Rechenschritte nötig waren – spielte dabei kaum eine Rolle. Die Modelle stolperten quer durch alle Schwierigkeitsstufen.

Prompt-Stabilität: Wunsch und Wirklichkeit

Besonders aufschlussreich sind die Implikationen für die Praxis: Sprachmodelle versagen oft daran, relevante von irrelevanten Informationen zu unterscheiden – selbst wenn alles sachlich korrekt ist. Prompt-Designer müssen daraus Konsequenzen ziehen.

Ein klarer Rat aus der Studie: Prompts sollten so fokussiert und minimalistisch wie möglich gestaltet sein. Alles, was vom Ziel ablenkt, kann zu Fehlinterpretationen führen. Ideal ist es, Aufgaben auf eigene Chats aufzuteilen, mit gezielter Kontextualisierung pro Aufgabe. Längere Konversationen mit ständig wechselndem Kontext wirken sich dagegen negativ auf die Performance aus.

Hoffnungsträger o1-preview?

Ein Modell sticht allerdings heraus: „o1-preview“, ein sogenanntes „Reasoning“-Modell, zeigte sich deutlich resistenter gegenüber Störungen. Es arbeitete stabil, selbst wenn andere Modelle scheiterten. Mögliche Gründe: bessere Architektur, gezielteres Training – oder beides. OpenAI gab kürzlich bekannt, dass klassische strukturierte Prompts bei diesen Modellen kaum noch notwendig seien. Das deutet auf eine tiefere, interne Strukturierung hin.

Allerdings bleibt Skepsis angebracht: Eine Apple-Studie warnte im Oktober 2024 davor, dass auch diese Modelle letztlich nur Muster erkennen, nicht aber echtes logisches Verständnis entwickeln.

Klarheit schlägt Größe

Die MIT-Studie ist ein Weckruf: Nicht die Modellgröße entscheidet über Qualität, sondern wie präzise Aufgaben gestellt werden. Wer mit LLMs arbeitet – sei es in der Bildung, im Service oder in der Automatisierung – muss sich darüber im Klaren sein: Prompting ist nicht nur Handwerk, sondern Strategie. Und manchmal macht weniger Kontext den entscheidenden Unterschied.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>