Ein unerwarteter Sieger und spannende Ergebnisse: Wie schlägt sich eine der ersten Chatbots gegen die neueste KI-Generation?
Im Jahr 1966 entwickelte der Informatiker Joseph Weizenbaum das Computerprogramm Eliza, einen der ersten Chatbots, der in einer aktuellen Studie überraschend gut abschnitt. Eliza und GPT 3.5, die Basis für die aktuelle Gratisversion von ChatGPT, sowie dessen Nachfolger GPT 4.0, wurden in einem Online-Turing-Test gegeneinander antreten gelassen. Das Ergebnis? Eliza verleitete mehr menschliche Probanden dazu, sie für einen Menschen zu halten, als GPT 3.5 es vermochte. GPT 4.0, obwohl fortschrittlicher, bestand den Turing-Test ebenfalls nicht – mit einer Erfolgsquote von unter 50% und ohne die Leistung menschlicher Probanden zu übertreffen.
Der Turing-Test, benannt nach dem britischen Mathematiker und Informatiker Alan Turing, wurde 1950 als „Imitationsspiel“ vorgestellt und gilt seither als berühmter, aber umstrittener Maßstab für die Fähigkeiten einer Maschine, menschliche Gespräche nachzuahmen. In der aktuellen Untersuchung wurden auf der Webseite turingtest.live Probanden eingeladen, als „Richter“ mit verschiedenen „Zeugen“ – Menschen, GPT-4, GPT-3.5 oder Eliza – zu interagieren. Mit 652 Teilnehmern und 1405 analysierten Sitzungen ergab sich, dass menschliche Zeugen eine Erfolgsrate (ER) von 63 Prozent erreichten, GPT-4 eine ER von 41 Prozent, Eliza überraschend eine ER von 27 Prozent, während GPT-3.5 mit 5 bis 14 Prozent am unteren Ende lag.