OpenAI testet KI als Softwareentwickler: Wie nah ist die KI am Menschen?

Kann Künstliche Intelligenz schon bald Softwareentwickler:innen ersetzen?

Diese Frage stellt sich OpenAI mit einem neuen Benchmark, der KI-Modelle unter realen Bedingungen testet. Während die Fortschritte beeindruckend sind, zeigt sich auch, dass Menschen weiterhin die Nase vorn haben.

KI als Softwareentwickler: OpenAIs großer Test

Mit dem Benchmark SWE-Lancer hat OpenAI die Fähigkeiten von KI in der Softwareentwicklung untersucht. Grundlage dafür waren 1.400 echte Aufträge von der Freelancer-Plattform Upwork mit einem Gesamtwert von 1 Million US-Dollar. Die KI-Modelle mussten sich dabei in zwei Disziplinen beweisen:

Als eigenständige Entwickler: Fehler beheben und neue Funktionen implementieren
Im Projektmanagement: Die besten Lösungen unter verschiedenen Vorschlägen auswählen

Die Aufgaben reichten von kleinen Bugfixes für 50 US-Dollar bis hin zu komplexen Implementierungen, für die bis zu 32.000 US-Dollar bezahlt wurden. Eine dieser größeren Aufgaben war die Entwicklung einer plattformübergreifenden In-App-Videowiedergabe für Web, iOS, Android und Desktop.

Im Bereich Projektmanagement musste die KI verschiedene Vorschläge bewerten, etwa für die Integration einer Bild-Einfügefunktion in einer iOS-App. Hier kam es auf Faktoren wie Clipboard-Kompatibilität, Berechtigungsanforderungen und das iOS-Nutzererlebnis an.

KI holt auf, bleibt aber hinter Menschen zurück

Die Ergebnisse zeigen, dass KI-Modelle durchaus Potenzial haben – aber noch lange nicht eigenständig komplexe Softwareprojekte bewältigen können.

Das leistungsfähigste getestete Modell, Claude 3.5 Sonnet, löste 26,2 % der Entwicklungsaufgaben und 44,9 % der Management-Aufgaben erfolgreich.
Hochgerechnet auf die realen Upwork-Aufträge hätte das Modell 208.050 US-Dollar von möglichen 500.800 US-Dollar verdient.
Auf den gesamten Datensatz mit einem Auftragsvolumen von 1 Million US-Dollar gerechnet, wäre der Verdienst der KI über 400.000 US-Dollar gewesen.

Wo die KI noch scheitert

Ein wiederkehrendes Problem bei den Tests: Die Modelle fanden oft den fehlerhaften Code, verstanden aber nicht immer die Ursache und konnten daher keine optimale Lösung entwickeln. Besonders bei komplexeren Softwareproblemen fehlt es den Modellen noch an tiefgehendem Verständnis.

OpenAI setzt auf Open-Source

Um die Forschung weiter voranzutreiben, hat OpenAI den Benchmark-Datensatz SWE-Lancer Diamond inklusive Docker-Image auf GitHub veröffentlicht. Dadurch können auch andere Entwickler:innen die Leistungsfähigkeit spezialisierter KI-Modelle testen und weiter verbessern. Ob KI in Zukunft menschliche Entwickler:innen vollständig ersetzen kann, bleibt abzuwarten. Klar ist aber: Die Automatisierung nimmt zu – und KI könnte eine immer größere Rolle in der Softwareentwicklung spielen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

OpenAI testet KI als Softwareentwickler: Wie nah ist die KI am Menschen?

OpenAI testet KI als Softwareentwickler: Wie nah ist die KI am Menschen?

Das könnte Sie auch interessieren

KI-Wurm passt Angriffe selbstständig an Zielsysteme an

ChartNet zeigt: Bessere Trainingsdaten können größere KI-Modelle schlagen

Abonnieren Sie jetzt unseren Newsletter!