Neue Methode TPO: Sprachmodelle zum Denken gebracht

Eine neue Methode namens Thought Preference Optimization (TPO) soll große Sprachmodelle dazu bringen, vor ihrer Antwort erst zu „denken“.

Forscher von Meta FAIR, der University of California, Berkeley und der New York University haben eine innovative Methode entwickelt, die die Leistung von Large Language Models (LLMs) wie Llama 3 deutlich verbessern könnte: Thought Preference Optimization (TPO). Anders als die bisherige Chain-of-Thought (CoT)-Technik, die hauptsächlich für mathematische und logische Probleme genutzt wird, zielt TPO auf eine breitere Anwendung ab.

Der Schlüssel zu TPO liegt darin, dass die Modelle vor dem Antworten interne Gedankenprozesse durchlaufen. Diese Prozesse werden iterativ optimiert, ohne dass zusätzliche Daten benötigt werden. Im Gegensatz zur Technik von OpenAI-Modellen wie o1, bei denen explizite Gedankenschritte sichtbar gemacht und ausgewertet werden, generiert das Modell bei TPO mehrere Gedankengänge, die von einem Bewertermodell analysiert werden. Dabei wird nur das Endergebnis beurteilt, nicht die einzelnen Gedankenschritte selbst. Dies ermöglicht es dem Modell, indirekt zu lernen, qualitativ hochwertigere Antworten zu geben, indem es die zugrundeliegenden Denkprozesse verbessert.

Bei Tests auf den Benchmarks AlpacaEval und Arena-Hard erzielte TPO deutliche Leistungsgewinne, insbesondere in Aufgaben, die allgemeine Instruktionsbefolgung und Themen wie Marketing, Gesundheit und allgemeines Wissen umfassen. In diesen Kategorien übertraf TPO Modelle, die ohne diesen Denkprozess arbeiten. Spannend ist, dass TPO nicht nur in logischen oder argumentativen Aufgaben glänzt, sondern auch in Bereichen, die bisher nicht mit logischem Denken in Verbindung gebracht wurden. Die Methode scheint jedoch weniger geeignet für mathematische Probleme, wo die Leistung im Vergleich zu traditionellen Modellen abfällt.

Die Forscher hoffen, dass ihre Arbeit eine breitere Anwendung von „denkenden“ LLMs ermöglicht und damit deren Nutzen in vielen nicht-mathematischen Bereichen erweitert.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Neue Methode TPO: Sprachmodelle zum Denken gebracht

Neue Methode TPO: Sprachmodelle zum Denken gebracht

Das könnte Sie auch interessieren

Soofi S verbindet deutsche Sprachkompetenz mit effizienter Hybridarchitektur

Gemma 4 E2B bringt leistungsfähige Offline-KI auf das Pixel 10

Abonnieren Sie jetzt unseren Newsletter!