Die Suche nach hochwertigen Trainingsdaten für KI-Modelle wird immer schwieriger. Doch ein neues Framework verspricht Abhilfe. Könnte BeyondWeb die Engpässe der Branche auflösen?
Datology AI hat mit BeyondWeb ein System entwickelt, das vorhandene Webinhalte in kompaktere, lehrreichere Formate umwandelt. Ziel ist es, Sprachmodelle nicht länger nur mit Rohdaten aus dem Internet zu trainieren, sondern mit optimierten, synthetischen Daten. Die Ergebnisse klingen beeindruckend: BeyondWeb steigert die Genauigkeit bei 8B-Modellen um mehr als fünf Prozentpunkte im Vergleich zu Hugging Faces Cosmopedia und arbeitet dabei deutlich schneller als klassische Ansätze.
Besonders spannend: Die Studie zeigt, dass nicht immer die größten Modelle die besten Umformulierer sind. Bereits kleinere LLMs können hochwertige synthetische Daten generieren – ein Hoffnungsschimmer für kleinere Unternehmen und Forschungseinrichtungen mit begrenzten Budgets. Ein weiterer Schlüsselfaktor ist die Vielfalt der Daten: Ohne stilistische Breite nutzen sich Trainingsfortschritte schnell ab.
Praktisch eingesetzt wurde BeyondWeb bereits beim 4,5B-Modell von ArceeAI. Während Microsoft mit Phi-4 und Nvidia mit Nemotron-4 ebenfalls den Wert synthetischer Daten unter Beweis stellten, betonte OpenAI bei GPT-5, dass es nicht nur um „Füllmaterial“ geht, sondern um gezielt aufbereitetes Lernmaterial. Damit wird klar: Synthetische Daten sind kein Notbehelf mehr, sondern ein zentraler Bestandteil moderner KI-Entwicklung.
