Jenseits der Datenwand: Datology AI setzt auf BeyondWeb

Die Suche nach hochwertigen Trainingsdaten für KI-Modelle wird immer schwieriger. Doch ein neues Framework verspricht Abhilfe. Könnte BeyondWeb die Engpässe der Branche auflösen?

Datology AI hat mit BeyondWeb ein System entwickelt, das vorhandene Webinhalte in kompaktere, lehrreichere Formate umwandelt. Ziel ist es, Sprachmodelle nicht länger nur mit Rohdaten aus dem Internet zu trainieren, sondern mit optimierten, synthetischen Daten. Die Ergebnisse klingen beeindruckend: BeyondWeb steigert die Genauigkeit bei 8B-Modellen um mehr als fünf Prozentpunkte im Vergleich zu Hugging Faces Cosmopedia und arbeitet dabei deutlich schneller als klassische Ansätze.

Besonders spannend: Die Studie zeigt, dass nicht immer die größten Modelle die besten Umformulierer sind. Bereits kleinere LLMs können hochwertige synthetische Daten generieren – ein Hoffnungsschimmer für kleinere Unternehmen und Forschungseinrichtungen mit begrenzten Budgets. Ein weiterer Schlüsselfaktor ist die Vielfalt der Daten: Ohne stilistische Breite nutzen sich Trainingsfortschritte schnell ab.

Praktisch eingesetzt wurde BeyondWeb bereits beim 4,5B-Modell von ArceeAI. Während Microsoft mit Phi-4 und Nvidia mit Nemotron-4 ebenfalls den Wert synthetischer Daten unter Beweis stellten, betonte OpenAI bei GPT-5, dass es nicht nur um „Füllmaterial“ geht, sondern um gezielt aufbereitetes Lernmaterial. Damit wird klar: Synthetische Daten sind kein Notbehelf mehr, sondern ein zentraler Bestandteil moderner KI-Entwicklung.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Jenseits der Datenwand: Datology AI setzt auf BeyondWeb

Jenseits der Datenwand: Datology AI setzt auf BeyondWeb

Das könnte Sie auch interessieren

Mistral macht aus Le Chat einen Arbeitsagenten für Büro und Code

YouTube macht KI-Hinweise sichtbarer und setzt Labels künftig selbst

Abonnieren Sie jetzt unseren Newsletter!