Das vergangene Jahr hat Wikipedia vor große Herausforderungen gestellt. Was steckt hinter dem massiven Anstieg von Bandbreitenanforderungen, und warum sind KI-Scraper dabei das größte Problem?
KI-Scraper überlasten Wikipedia-Server
Die Wikipedia und ihre verbundenen Bibliotheken mussten im letzten Jahr eine drastische Erhöhung der Bandbreitennutzung hinnehmen. Grund dafür sind nicht etwa mehr menschliche Besucher, sondern automatisierte Systeme – sogenannte KI-Scraper. Diese Bots durchsuchen gezielt riesige Datenmengen, um sie für die Schulung von KI-Modellen zu nutzen.
Besonders problematisch ist, dass diese Scraper nicht nur beliebte Inhalte ansteuern, sondern auch selten aufgerufene Multimedia-Dateien kontinuierlich abrufen. Das belastet die Infrastruktur immens, da viele Anfragen das zentrale Rechenzentrum durchlaufen müssen. Ziel ist es jetzt, menschliche Zugriffe gegenüber den automatisierten Anfragen zu priorisieren.
Hohe Last durch automatisierte Anfragen
Ein Diagramm der Wikimedia Foundation zeigt, dass das allgemeine Bandbreitenniveau seit Frühjahr 2024 kontinuierlich gestiegen ist. Besonders auffällig sind Spitzenwerte nach Ereignissen mit großer medialer Aufmerksamkeit – etwa nach dem Tod des ehemaligen US-Präsidenten Jimmy Carter, als viele Nutzer eine Debatte zwischen Carter und Ronald Reagan abgerufen haben.
Obwohl die Infrastruktur von Wikipedia darauf ausgelegt ist, solche Ereignisse abzufangen, führen die kontinuierlichen Zugriffe der KI-Scraper dazu, dass die Reserven für plötzliche Spitzen schmelzen.
Kein Mehrwert durch KI-Scraper
Die Wikimedia Foundation berichtet, dass zwei Drittel der ressourcenintensivsten Anfragen nicht auf menschliche Aktivitäten zurückzuführen sind. Dieser „beispiellose“ Traffic führt zu steigenden Kosten und Risiken, ohne dass Wikipedia davon profitiert. Immer wieder müssen automatisierte Anfragen blockiert werden, um den Zugang für Menschen sicherzustellen.
Andere Plattformen wie Linux Weekly News (LWN-net) berichten von ähnlichen Problemen, die teilweise wie DDoS-Angriffe wirken. Ein großes Problem bleibt jedoch: Wer genau diese KI-Scraper betreibt, ist oft unklar. Zahlreiche KI-Unternehmen nutzen Wikipedia als frei zugängliche Datenquelle zur Schulung ihrer Modelle.