Nvidia hat mit dem Llama-3.1-Nemotron-70B-Instruct ein neues KI-Modell präsentiert, das Nutzerfreundlichkeit steigern soll – doch nicht alle Ergebnisse überzeugen.
Basierend auf Metas Open-Source-Modell Llama 3.1 hat Nvidia das neue Sprachmodell Llama-3.1-Nemotron-70B-Instruct entwickelt, welches speziell darauf optimiert wurde, besonders hilfreiche Antworten auf Nutzeranfragen zu geben. Die herausragende Eigenschaft dieses Modells ist die Kombination verschiedener Trainingsmethoden, die laut Nvidia das Modell besser an menschliche Präferenzen anpassen soll.
Ein zentraler Bestandteil des Trainingsprozesses war die Nutzung von zwei eigens entwickelten Datensätzen: HelpSteer2 und HelpSteer2-Preference. HelpSteer2 enthält über 20.000 Prompt-Antwort-Paare, die anhand von Kriterien wie Hilfsbereitschaft, Kohärenz und Korrektheit bewertet wurden. HelpSteer2-Preference fügt zusätzlich Vergleichsdaten hinzu, bei denen Annotatoren die bessere von zwei Antworten auf denselben Prompt wählten und die Stärke ihrer Präferenz angaben.
Nvidia kombinierte zwei unterschiedliche Belohnungsmodelle, um das Modell zu trainieren: das Regressionsmodell SteerLM und das Bradley-Terry-Modell. Das SteerLM-Modell bewertet Antworten auf Basis von Hilfsbereitschaft, während Bradley-Terry aus Präferenzvergleichen lernt. Die Kombination beider Modelle führte zu den besten Ergebnissen. Ein zusätzlicher Feinschliff erfolgte durch den REINFORCE-Algorithmus, der eine stabilere Bewertung von Aktionen ermöglicht als der weit verbreitete PPO-Algorithmus. Obwohl das Modell in Benchmarks wie Arena Hard, AlpacaEval 2 LC und GPT-4-Turbo MT-Bench Bestplatzierungen erreichte und sogar Spitzenmodelle wie GPT-4 und Claude 3.5 Sonnet übertraf, bleiben einige Schwächen bestehen. So zeigt das Ranking des MMLU-Pro-Benchmarks, dass die Antworten zwar den menschlichen Vorlieben besser entsprechen, inhaltlich jedoch nicht präziser sind. In einigen Fällen schnitt das Nemotron-Modell sogar schlechter ab als das ursprüngliche Llama 3.1.