16. Februar 2025

Wie KI-Modelle lernen, logisch zu denken – Neue Erkenntnisse aus der Forschung

Können Maschinen wirklich lernen, wie Menschen zu denken? Eine neue Studie untersucht, welche Methoden es KI-Modellen ermöglichen, lange Gedankenketten zu entwickeln – mit spannenden Erkenntnissen für die Zukunft der künstlichen Intelligenz.

Das Verständnis für die Denkfähigkeiten von KI-Modellen hat in den letzten Jahren große Fortschritte gemacht. Forscher von IN.AI, der Tsinghua University und der Carnegie Mellon University haben nun detailliert analysiert, welche Trainingsmethoden am effektivsten sind, um komplexe Reasoning-Fähigkeiten zu fördern.

Durch Experimente mit überwachtem Feintuning (SFT) und Reinforcement Learning (RL) konnten sie vier zentrale Faktoren identifizieren, die die Entwicklung langer Gedankenketten beeinflussen:

  1. SFT verbessert die Effizienz, ist aber nicht zwingend notwendig.
    Die Tests mit Llama-3.1-8B und Qwen2.5-7B-Math zeigten, dass ein Training mit langen Gedankengängen eine höhere Leistungsgrenze ermöglicht als mit kurzen. Besonders interessant: SFT erleichtert die spätere Anwendung von RL-Methoden erheblich.
  2. Rechenleistung allein garantiert keine besseren Denkfähigkeiten.
    Während mehr Rechenleistung während des RL-Trainings die Denkprozesse begünstigen kann, ist das Wachstum der Gedankenlänge nicht immer stabil. Entscheidend ist vor allem das richtige Belohnungsdesign, um eine nachhaltige Verbesserung zu gewährleisten.
  3. Verifizierbare Belohnungssignale sind essenziell für RL.
    Das Team untersuchte verschiedene Methoden zur Skalierung von Belohnungssignalen und stellte fest, dass regelbasierte Verifizierer besonders effektiv sind. Interessanterweise erzielten Modelle, die mit verrauschten, aber vielfältigen Daten trainiert wurden, in Out-of-Distribution-Tests sogar bessere Ergebnisse als jene mit annotierten, verifizierten Daten.
  4. Fehlerkorrektur ist in Basismodellen bereits vorhanden, benötigt aber erhebliche Rechenleistung für komplexe Aufgaben.
    Die Fähigkeit, eigene Fehler zu erkennen und zu korrigieren, ist ein zentraler Bestandteil des menschlichen Denkens. Die Studie legt nahe, dass einige dieser Mechanismen bereits während des Pre-Trainings entstehen, aber erst durch gezieltes RL-Training verstärkt werden.

Blick in die Zukunft: Warum Modellgröße entscheidend sein könnte
Die Ergebnisse zeigen auch, dass größere Modelle möglicherweise komplexere Denkfähigkeiten entwickeln können. Das liegt unter anderem daran, dass viele fortgeschrittene Problemlösungsstrategien bereits unbewusst in den Daten enthalten sind, mit denen die Modelle trainiert werden. KI-Modelle könnten also lernen, wie Menschen auf Plattformen wie Internet-Diskussionsforen argumentieren und ihre Gedanken strukturieren. Dennoch stehen Forscher noch am Anfang, wenn es um die Weiterentwicklung von RL-Methoden für Open-Source-Modelle geht. Künftige Studien könnten untersuchen, wie sich größere Basismodelle mit RL weiterentwickeln lassen – ein spannendes Feld mit enormem Potenzial für die künstliche Intelligenz.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>