Feinabstimmung mit System: OpenAI bringt neue Methoden für spezialisierte KI-Anwendungen

OpenAI führt mit Reinforcement Fine-Tuning (RFT) ein neues Trainingskonzept für Organisationen ein, das Sprachmodelle gezielt an komplexe Anforderungen anpassen soll. Im Fokus: Flexibilität, Präzision und eine strukturierte Bewertung.

Flexible Anpassung statt fester Antworten

Während klassisches Supervised Fine-Tuning auf klar definierte Eingabe-Antwort-Paare setzt, geht RFT einen anderen Weg: Mit programmierbaren Bewertungssystemen – sogenannten „Gradern“ – lassen sich Modelle differenzierter trainieren. Diese Grader vergeben Punktzahlen für jede Modellantwort und erlauben so eine fein abgestimmte Optimierung entlang von Stil, Genauigkeit oder Sicherheit. Besonders interessant: Mehrere Grader lassen sich kombinieren, um komplexe Zielvorgaben zu erfassen.

Das Modell lernt durch Rückmeldungen in Form numerischer Bewertungen, bessere Antworten zu erzeugen. Der Trainingsprozess basiert auf Prinzipien des Bestärkenden Lernens – eine Technologie, die auch OpenAIs Reasoning-Systeme wie o3 antreibt.

Schritt für Schritt zur spezialisierten KI

OpenAI gliedert den RFT-Prozess in fünf klare Phasen: Grader definieren, Daten hochladen, Job starten, Antworten bewerten, Modell anpassen. Die Antworten werden automatisch gescored und die Modellgewichte mit Hilfe von Policy-Gradient-Verfahren aktualisiert.

Besonders spannend ist der Anwendungsfall im Bereich Unternehmenssicherheit: Hier beantwortet ein KI-Modell Fragen zur Sicherheitspolitik in strukturierter JSON-Form. Bewertet wird sowohl die formale Struktur als auch die Qualität der Begründung – eine Methode mit viel Potenzial für Compliance und interne Audits.

Die Trainingsdaten müssen dabei sauber strukturiert im JSONL-Format vorliegen. OpenAI misst im Verlauf die mittlere Belohnung für Trainings- und Validierungsdaten und ermöglicht gezieltes Testen einzelner Checkpoints. RFT ist vollständig in bestehende OpenAI-Tools eingebunden.

Mehr Optionen für GPT-4.1

Parallel zur Einführung von RFT erlaubt OpenAI nun auch Supervised Fine-Tuning für das besonders performante GPT-4.1 nano. Das Modell gilt als schnellstes und kosteneffizientestes GPT-4-Modell – ideal für klassische Anpassungen mit festen Antwortformaten.

Ein weiterer Bonus: Organisationen, die ihre Trainingsdaten mit OpenAI teilen, erhalten satte 50 Prozent Preisnachlass. Die Ergebnisse können bequem über die bekannte API in bestehende Systeme integriert werden.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Feinabstimmung mit System: OpenAI bringt neue Methoden für spezialisierte KI-Anwendungen

Feinabstimmung mit System: OpenAI bringt neue Methoden für spezialisierte KI-Anwendungen

Das könnte Sie auch interessieren

NotebookLM wird zum Office-Assistenten für Tabellen, Folien und Reports

OpenAI startet nächste Phase: persönliche AGI soll zum Alltagswerkzeug werden

Abonnieren Sie jetzt unseren Newsletter!