Ein neues Kapitel für die KI-Forschung in Deutschland: Mit German Commons liegt nun der größte offen lizenzierte deutsche Textkorpus vor. Doch was bedeutet das für die Entwicklung rechtssicherer Sprachmodelle?
Das Forschungsteam aus Kassel, Leipzig und hessian.AI hat beeindruckende 154,56 Milliarden Token aus 35,78 Millionen Dokumenten zusammengetragen. Anders als viele bestehende Datensätze stammen die Texte ausschließlich aus Quellen mit überprüfbarer Lizenzierung – darunter renommierte Institutionen wie die Deutsche und Österreichische Nationalbibliothek, das DWDS, das IDS und Wikimedia-Projekte. Das Ziel: Sprachmodelle trainieren, ohne rechtliche Grauzonen zu betreten.
Inhaltlich dominieren Nachrichtentexte und historische Dokumente, viele davon aus digitalisierten Zeitungsarchiven des 18. bis 20. Jahrhunderts. Der Großteil der Daten ist gemeinfrei und darf frei weiterverwendet, verändert und sogar kommerziell genutzt werden. Um die Qualität sicherzustellen, wurden die Texte mehrfach gefiltert, bereinigt und von Duplikaten befreit – fast die Hälfte der ursprünglichen Daten fiel dabei heraus. Bemerkenswert: Eine Inhaltsanalyse ergab, dass 95 Prozent der geprüften Textabschnitte keinerlei toxische Inhalte enthielten.
Parallel dazu veröffentlichen die Forschenden ihre Verarbeitungspipeline llmdata als Open Source. Sie ermöglicht nicht nur vollständige Reproduzierbarkeit, sondern lädt auch die Community ein, den Korpus weiterzuentwickeln. Auf Hugging Face steht das Projekt bereits frei zur Verfügung – ein großer Schritt für alle, die deutschsprachige KI-Systeme auf eine saubere rechtliche Grundlage stellen möchten.
German Commons reiht sich damit in eine wachsende Bewegung ein: Nach dem internationalen Common-Pile-Projekt und dem europäischen OpenGPT-X-Ansatz zeigt sich, dass offene, rechtssichere Daten nicht nur Transparenz schaffen, sondern auch echte Forschung ermöglichen.
