Künstliche Intelligenz ist längst nicht mehr nur Spielerei – sie wird zum echten Wettbewerber in Disziplinen, die bisher als menschliche Domäne galten. Doch wie schlägt sich KI in einer der anspruchsvollsten Arenen überhaupt: dem Cybersecurity-Wettbewerb?
Kann KI den Menschen im Hackerwettstreit übertreffen?
Diese Frage stellte sich Palisade Research und ließ autonome KI-Agenten gegen menschliche Teams in sogenannten CTF-Wettbewerben antreten. Die Ergebnisse geben einen spannenden Einblick in die Leistungsfähigkeit heutiger KI – und werfen neue Fragen zur Zukunft von Cybersecurity auf.
KI-Agenten in der Arena der Sicherheitstests
In zwei umfassenden Wettbewerben wurden KI-Systeme auf Herz und Nieren geprüft. Bei „AI vs. Humans“ traten sechs KI-Teams gegen etwa 150 menschliche Hackergruppen an. In 48 Stunden mussten knifflige Kryptografie- und Reverse-Engineering-Aufgaben gelöst werden – und das mit Erfolg: Vier KI-Teams knackten 19 von 20 Aufgaben und landeten damit unter den Top-5 Prozent aller Teilnehmer.
Auch der zweite Wettbewerb, „Cyber Apocalypse“, hatte es in sich: Über 18.000 Spieler, 62 Herausforderungen, davon viele mit Interaktionen außerhalb der Modelle. Doch selbst hier behauptete sich das beste KI-System unter den besten zehn Prozent aller Teilnehmenden – trotz erschwerter Bedingungen.
Erfahrung vs. Rechenlogik
Erstaunlich: Die besten menschlichen Spieler konnten zwar mithalten, doch der Trend ist klar – mit ausgeklügelten Modellen und gezieltem Prompting holen KI-Agenten rasant auf. Der Unterschied lag oft nicht in der Rechenleistung, sondern in der Detailarbeit: Manche Teams investierten Hunderte Stunden in die Systemoptimierung, andere punkteten mit schlauen Strategien auf Basis existierender Modelle.
Neues Licht auf KI-Fähigkeiten
Besonders spannend: Die Resultate zeigen, dass frühere Studien die Fähigkeiten von KI-Systemen offenbar unterschätzt haben. Das sogenannte „Evals Gap“ – eine Lücke zwischen tatsächlichem Potenzial und gemessener Leistung – wird durch Crowdsourcing-Ansätze nun deutlicher. Laut Palisade liefern reale Wettbewerbe deutlich nützlichere Erkenntnisse als herkömmliche Benchmarks.