Eine aktuelle Studie von Forschenden der Stanford University und der Carnegie Mellon University zeigt ein bemerkenswertes Problem: Viele KI-Agenten werden fast ausschließlich anhand von Programmieraufgaben getestet. Dabei basiert die Analyse auf 43 etablierten Benchmarks mit insgesamt über 72.000 Aufgaben. Diese Aufgaben wurden mit 1.016 Berufen aus der Berufsdatenbank O*NET der US-Regierung abgeglichen, die Tätigkeiten und Fähigkeiten systematisch klassifiziert.
Das Ergebnis fällt deutlich aus: Der Großteil der Tests konzentriert sich auf das Berufsfeld „Computer and Mathematical“. Dieses Arbeitsfeld macht jedoch lediglich etwa 7,6 Prozent der Beschäftigung in den USA aus. Andere wirtschaftlich wichtige Bereiche – etwa Management, Recht, Architektur oder Ingenieurwesen – werden dagegen kaum berücksichtigt. Dadurch entsteht eine deutliche Verzerrung in der Bewertung der Fähigkeiten von KI-Agenten.
Auch bei den getesteten Kompetenzen zeigt sich eine ähnliche Schieflage. Aufgaben wie Informationsbeschaffung oder die Arbeit mit Computern sind stark überrepräsentiert. Gleichzeitig fehlen Fähigkeiten, die für viele Berufe entscheidend sind – insbesondere zwischenmenschliche Interaktion. Genau diese Kompetenzen spielen jedoch in zahlreichen Arbeitsfeldern eine zentrale Rolle.
Hinzu kommt ein weiteres Problem: Sobald Aufgaben komplexer werden, geraten viele KI-Agenten schnell an ihre Grenzen. Besonders schwierig sind Tätigkeiten, die Informationsverarbeitung mit menschlicher Interaktion kombinieren. Ein Beispiel liefert der Benchmark „LiveAgentBench“. Dort konnten KI-Agenten mit Werkzeugzugriff lediglich 24 Prozent praxisnaher Aufgaben lösen. Menschen erreichten bei denselben Aufgaben eine Erfolgsquote von 69 Prozent.
Die Forschenden sehen daher dringenden Handlungsbedarf. Zukünftige Benchmarks sollten deutlich breitere Berufsbereiche abdecken, realistischere Aufgaben enthalten und differenziertere Bewertungsmethoden einsetzen. Ohne diese Anpassungen besteht die Gefahr, dass sich die Entwicklung von KI-Agenten an den tatsächlichen Anforderungen von Wirtschaft und Gesellschaft vorbeibewegt.
