Erfundene Quellen galten lange vor allem als sichtbares Problem generativer KI. Nun zeigt ein großes Audit biomedizinischer Fachliteratur, dass solche Referenzen längst in Peer-reviewed-Papieren auftauchen. Was zunächst wie ein formaler Fehler wirkt, kann in der Medizin direkte Folgen für Forschung, Reviews und klinische Leitlinien haben.
Forschende der Columbia University und weiterer Institutionen haben in einer im Fachjournal The Lancet veröffentlichten Studie 2,47 Millionen biomedizinische Papiere aus dem offenen PubMed-Central-Bestand untersucht. Der geprüfte Zeitraum reichte von Januar 2023 bis Februar 2026. Insgesamt analysierte das Team um Maxim Topaz 97,1 Millionen Literaturangaben.
Das Ergebnis: 4.046 Referenzen wurden als fabriziert eingestuft. Sie verteilten sich auf 2.810 Papiere. Als fabriziert galt eine Referenz, wenn der angegebene Titel in keiner von vier großen Literaturdatenbanken auffindbar war: PubMed, Crossref, OpenAlex und Google Scholar.
Auffällig ist vor allem der zeitliche Verlauf. Im Jahr 2023 blieb die Rate mit rund vier fabrizierten Referenzen pro 10.000 Papieren noch stabil. Ab Mitte 2024 stieg sie stark an. Ende 2025 lag sie bereits bei 51,3 pro 10.000 Papieren, in den ersten sieben Wochen des Jahres 2026 bei 56,9. Damit hat sich der Wert gegenüber dem Ausgangsniveau mehr als verzwölffacht.
Die Autoren sehen einen naheliegenden Zusammenhang mit dem breiten Einsatz von Sprachmodellen wie ChatGPT, der Ende 2022 begann. Da zwischen Einreichung und Veröffentlichung wissenschaftlicher Arbeiten typischerweise 100 bis 200 Tage liegen, würden KI-gestützte Texte erst ab Mitte 2024 in größerer Zahl in PubMed Central sichtbar. Andere mögliche Ursachen schließen die Forschenden jedoch nicht aus. Dazu zählen verstärkte Paper-Mill-Aktivitäten oder veränderte Indexierungspraktiken.
Problematisch ist, dass die erfundenen Quellen nicht sofort auffallen. Sie sind korrekt formatiert, wirken thematisch passend, nennen echte Forschende und enthalten plausible Jahreszahlen. In einem urologischen Fachartikel waren 18 von 30 geprüften Referenzen erfunden, alle passend zum engen chirurgischen Thema. Zusätzlich fanden die Forschenden Muster, die auf koordinierte Paper-Mill-Aktivität hindeuten: Zwei Autoren tauchten in elf Papieren desselben chirurgischen Journals auf, verbunden mit insgesamt 15 erfundenen Referenzen zu Themen wie CRISPR-Diagnostik und Darmmikrobiom.
Für die wissenschaftliche Qualitätssicherung ist das mehr als ein Randproblem. Zum Zeitpunkt des Audits hatten 98,4 Prozent der betroffenen Papiere keine Reaktion des jeweiligen Verlags erhalten. Besonders stark betroffen sind Übersichtsartikel, deren Fabrikationsrate um 57 Prozent höher liegt als bei anderen Papiertypen. Gerade das wiegt schwer, weil Reviews häufig als Grundlage für klinische Leitlinien dienen. Wird ein Papier mit erfundenen Quellen in eine Leitlinie übernommen, kann die Evidenzkette für Behandlungsentscheidungen beschädigt werden.
Erste Reaktionen gibt es bereits, aber noch nicht einheitlich. Arxiv hat die Sanktionen für ungeprüfte LLM-Ausgaben in Manuskripten verschärft, darunter halluzinierte Quellen, und droht betroffenen Autoren mit einem einjährigen Ausschluss. Eine Analyse akzeptierter NeurIPS-2025-Paper hatte zuvor gezeigt, dass selbst führende KI-Konferenzen erfundene Zitationen nicht zuverlässig herausfiltern. Mit CiteAudit existiert ein Open-Source-Ansatz zur automatisierten Zitationsprüfung. Zugleich zeigt dieses System, wie schwer es kommerziellen Sprachmodellen fällt, ihr eigenes Referenzproblem verlässlich zu erkennen.
Die Forschenden schlagen vier Maßnahmen vor: automatische Referenzprüfung vor dem Peer Review, Integritäts-Metadaten in Artikeldatensätzen, nachträgliches Screening bereits veröffentlichter Papiere sowie eine eigene Kategorie „fabrizierte Referenzen“ in Forschungsintegritätsdatenbanken. Bemerkenswert ist auch ein Detail der Studie selbst: Die Autoren nutzten Claude für Code-Entwicklung und Grammatikkorrektur.
