Kann Künstliche Intelligenz schon bald Softwareentwickler:innen ersetzen?
Diese Frage stellt sich OpenAI mit einem neuen Benchmark, der KI-Modelle unter realen Bedingungen testet. Während die Fortschritte beeindruckend sind, zeigt sich auch, dass Menschen weiterhin die Nase vorn haben.
KI als Softwareentwickler: OpenAIs großer Test
Mit dem Benchmark SWE-Lancer hat OpenAI die Fähigkeiten von KI in der Softwareentwicklung untersucht. Grundlage dafür waren 1.400 echte Aufträge von der Freelancer-Plattform Upwork mit einem Gesamtwert von 1 Million US-Dollar. Die KI-Modelle mussten sich dabei in zwei Disziplinen beweisen:
- Als eigenständige Entwickler: Fehler beheben und neue Funktionen implementieren
- Im Projektmanagement: Die besten Lösungen unter verschiedenen Vorschlägen auswählen
Die Aufgaben reichten von kleinen Bugfixes für 50 US-Dollar bis hin zu komplexen Implementierungen, für die bis zu 32.000 US-Dollar bezahlt wurden. Eine dieser größeren Aufgaben war die Entwicklung einer plattformübergreifenden In-App-Videowiedergabe für Web, iOS, Android und Desktop.
Im Bereich Projektmanagement musste die KI verschiedene Vorschläge bewerten, etwa für die Integration einer Bild-Einfügefunktion in einer iOS-App. Hier kam es auf Faktoren wie Clipboard-Kompatibilität, Berechtigungsanforderungen und das iOS-Nutzererlebnis an.
KI holt auf, bleibt aber hinter Menschen zurück
Die Ergebnisse zeigen, dass KI-Modelle durchaus Potenzial haben – aber noch lange nicht eigenständig komplexe Softwareprojekte bewältigen können.
- Das leistungsfähigste getestete Modell, Claude 3.5 Sonnet, löste 26,2 % der Entwicklungsaufgaben und 44,9 % der Management-Aufgaben erfolgreich.
- Hochgerechnet auf die realen Upwork-Aufträge hätte das Modell 208.050 US-Dollar von möglichen 500.800 US-Dollar verdient.
- Auf den gesamten Datensatz mit einem Auftragsvolumen von 1 Million US-Dollar gerechnet, wäre der Verdienst der KI über 400.000 US-Dollar gewesen.
Wo die KI noch scheitert
Ein wiederkehrendes Problem bei den Tests: Die Modelle fanden oft den fehlerhaften Code, verstanden aber nicht immer die Ursache und konnten daher keine optimale Lösung entwickeln. Besonders bei komplexeren Softwareproblemen fehlt es den Modellen noch an tiefgehendem Verständnis.
OpenAI setzt auf Open-Source
Um die Forschung weiter voranzutreiben, hat OpenAI den Benchmark-Datensatz SWE-Lancer Diamond inklusive Docker-Image auf GitHub veröffentlicht. Dadurch können auch andere Entwickler:innen die Leistungsfähigkeit spezialisierter KI-Modelle testen und weiter verbessern. Ob KI in Zukunft menschliche Entwickler:innen vollständig ersetzen kann, bleibt abzuwarten. Klar ist aber: Die Automatisierung nimmt zu – und KI könnte eine immer größere Rolle in der Softwareentwicklung spielen.