Was beeinflusst die Leistung von KI bei Gedankenketten? Neue Studie gibt Antworten

Wie denken Large Language Models (LLMs) wirklich, wenn sie komplexe Aufgaben lösen? Eine neue Studie von Forschern der Princeton und Yale University hat sich genau das vorgenommen.

Forscher der beiden Universitäten haben GPT-4, Claude 3 und Llama 3.1 unter die Lupe genommen und untersucht, welche Faktoren ihre Leistung bei Chain-of-Thought (CoT)-Prompts beeinflussen. Diese speziellen Prompts fordern die KI dazu auf, Zwischenschritte vor der endgültigen Antwort zu generieren. Im Fokus der Studie stand die symbolische Denkaufgabe der Entschlüsselung von Verschiebechiffren, bei der es darum geht, einen verschlüsselten Text zu entschlüsseln und den Originaltext zu rekonstruieren.

Die Forscher identifizierten drei zentrale Faktoren, die die Leistung der LLMs bei dieser Aufgabe stark beeinflussen:

Wahrscheinlichkeit: Wie wahrscheinlich ist das Ergebnis basierend auf dem verschlüsselten Text?
Auswendiglernen: Was hat das Modell während des Trainings gelernt und wie oft ist die Art der Verschlüsselung in den Trainingsdaten aufgetreten?
Verrauschtes Schlussfolgern: Wie viele Zwischenschritte benötigt das Modell, um den Text zu entschlüsseln? Je mehr Schritte, desto höher die Fehlerwahrscheinlichkeit.

Um diese Faktoren besser zu verstehen, setzten die Forscher auf ein einfaches probabilistisches Modell und führten eine logistische Regression durch. Diese Analyse zeigte, dass vor allem die Wahrscheinlichkeit des Ergebnisses, die Häufigkeit der verwendeten Verschlüsselung und die Anzahl der benötigten Schritte einen signifikanten Einfluss auf die Leistung von GPT-4 hatten. Besonders spannend: Das Modell scheint beim Lösen der Aufgaben eine Kombination aus Auswendiglernen und echtem Schlussfolgern zu verwenden. Es kann Buchstaben sowohl vorwärts als auch rückwärts verschieben, was zwar zu besseren Ergebnissen führt, aber auch mehr „Rauschen“ erzeugt, das die Genauigkeit beeinträchtigt. Die Zwischenschritte, die bei CoT-Prompts generiert werden, sind laut den Forschern entscheidend. Obwohl die in den Prompts gegebenen Gedankenketten nicht immer inhaltlich korrekt sein müssen, übernimmt GPT-4 das Format, um eigene, richtige Ketten zu bilden. Dies zeigt, dass das Modell probabilistisches Denken und gelernten Kontext kombiniert, um seine Leistung zu optimieren.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Was beeinflusst die Leistung von KI bei Gedankenketten? Neue Studie gibt Antworten

Was beeinflusst die Leistung von KI bei Gedankenketten? Neue Studie gibt Antworten

Das könnte Sie auch interessieren

Alibaba bringt Roboter-KI vor dem Handeln ins Simulieren

Apples großes iPhone-Modell arbeitet aus dem Flash-Speicher

Abonnieren Sie jetzt unseren Newsletter!