Können KI-Modelle bald ganze Bücher schreiben? Eine neue Technik könnte genau das möglich machen.
In einer aktuellen Studie haben Forscher herausgefunden, dass moderne Sprachmodelle zwar enorm große Eingabemengen verarbeiten können, jedoch ohne externe Eingriffe keine Ausgaben erzeugen, die länger als 2.000 Wörter sind. Der Hauptgrund dafür liegt in der Art und Weise, wie diese Modelle trainiert wurden. Während des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) haben die Modelle in der Regel nur relativ kurze Texte gesehen, was ihre Fähigkeit einschränkt, längere Texte zu generieren.
Um dieses Problem zu lösen, stellten die Forscher die neue agentenbasierte Pipeline „AgentWrite“ vor. Diese Technologie zerlegt umfangreiche Generierungsaufgaben in kleinere, überschaubare Teilaufgaben, die dann von bestehenden großen Sprachmodellen (LLMs) verarbeitet werden. Dadurch können diese Modelle kohärente Ausgaben mit über 20.000 Wörtern erzeugen.
Ein Paradebeispiel für den Erfolg dieser Methode ist der Datensatz „LongWriter-6k“, der von den Forschern erstellt wurde. Er umfasst 6.000 SFT-Daten mit Ausgabelängen zwischen 2.000 und 32.000 Wörtern. Durch das Training bestehender Modelle mit diesem Datensatz konnten die Forscher die Ausgabelänge auf über 10.000 Wörter steigern, ohne die Qualität der generierten Texte zu beeinträchtigen.
Zusätzlich entwickelten die Forscher den Benchmark „LongBench-Write“, der die ultralangen Generierungsfähigkeiten von Modellen bewertet. In diesem Benchmark erzielte ein 9-Milliarden-Parameter-Modell, das durch Direct Preference Optimization (DPO) weiter verbessert wurde, Spitzenleistungen und übertraf dabei sogar größere, proprietäre Modelle.