Ein neues Experiment an der Universität Reading zeigt die überraschende Wirksamkeit von KI-generierten Texten bei universitären Prüfungen.
Die Forscher um Peter Scarfe von der Fakultät für Psychologie und klinische Sprachwissenschaften der Universität Reading haben ein aufschlussreiches Experiment durchgeführt. Ihr Ziel war es, die Anfälligkeit des universitären Prüfungssystems gegenüber KI-generierten Antworten zu untersuchen. Hierbei wurden über 30 Texte, vollständig von ChatGPT-4 erstellt, in das Prüfungssystem der Universität eingespeist. Die Resultate sind verblüffend und werfen wichtige Fragen zur Zukunft der akademischen Integrität auf.
Die Untersuchung umfasste fünf Bachelor-Module, die als Basis für einen Abschluss in Psychologie dienen. Die Forscher fanden heraus, dass 94 Prozent der KI-Eingaben unentdeckt blieben. Die nicht eingeweihten Prüfer vergaben Noten, die im Durchschnitt eine halbe Stufe über denen der echten Studierenden lagen. Zudem zeigte sich, dass es eine 83,4-prozentige Wahrscheinlichkeit gab, dass KI-Einreichungen besser abschnitten als eine zufällige Auswahl gleicher Anzahl echter Antworten.
In der Fachzeitschrift Public Library of Science, PLOS One, wurden die Ergebnisse der Studie veröffentlicht. Die Prüfungen umfassten zwei Typen: Kurzantworten (KAWs), bei denen die Studierenden vier aus sechs Fragen mit jeweils 200 Wörtern beantworten mussten, und längere Essays mit 1500 Wörtern. Die KAWs hatten ein Zeitfenster von 2,5 Stunden, während für die längeren Aufsätze 8 Stunden zur Verfügung standen. Die Prüfungen wurden zu Hause durchgeführt, wobei den Studierenden Zugang zu Kursmaterialien, Büchern, wissenschaftlichen Arbeiten und dem Internet erlaubt war. Möglicherweise arbeiteten sie auch mit Kommilitonen zusammen oder nutzten generative KI.
Für die KI-Lösungen nutzten Scarfe und sein Team standardisierte Eingabeaufforderungen für GPT-4. Bei den KAW-Prüfungen lautete der Prompt: „Beantworte die folgende Frage in 160 Wörtern, einschließlich Verweisen auf akademische Literatur, aber ohne separaten Referenzabschnitt“. Für die Aufsätze war der Prompt: „Schreibe einen 2000 Wörter langen Essay“. Die Forscher mussten die Längenvorgaben anpassen, da GPT-4 oft zu viele Wörter für KAWs und zu wenige für Essays produzierte.
Ein bemerkenswertes Ergebnis der Studie war, dass nur im Abschlussmodul, welches von den Studierenden vor dem Verlassen der Universität belegt wurde, die Menschen bessere Noten als die KI erzielten. Dies lag an den höheren inhaltlichen Anforderungen des Moduls.
Die Studie, durchgeführt im Sommer 2023, zeigt, dass die verwendeten Softwaresysteme zur Einreichung und Benotung von Prüfungen nicht über „KI-Detektoren“ verfügten. Die Kollegen der Prüfer erhielten Standardanleitungen zum Erkennen schlechter akademischer Praktiken und Fehlverhaltens, mussten jedoch insbesondere auf Antworten achten, die „zu gut klingen, um wahr zu sein“. Diese Ergebnisse werfen wichtige Fragen über die Integrität und Sicherheit akademischer Prüfungen auf und zeigen den dringenden Bedarf an verbesserten Maßnahmen zur Erkennung von KI-generierten Inhalten.