OpenAI präsentiert neuen KI-Benchmark MLE-bench: Ein Blick auf die Zukunft des autonomen Machine-Learning-Engineerings

OpenAI hat mit MLE-bench ein neues Werkzeug vorgestellt, das den Fortschritt von KI-Agenten im Bereich Machine Learning bewerten soll.

MLE-bench ist ein neu entwickelter Benchmark, der speziell darauf ausgelegt ist, die Fähigkeiten von KI-Agenten bei der Lösung von Machine-Learning-Aufgaben zu messen. Dazu greift das Tool auf 75 reale Kaggle-Wettbewerbe zurück, die verschiedene Bereiche wie Computer Vision, Signalverarbeitung und natürliche Sprachverarbeitung abdecken. Besonders spannend ist die Möglichkeit, die Leistung der KI-Systeme direkt mit menschlichen Experten zu vergleichen.

Was steckt hinter MLE-bench?

MLE-bench soll eine robuste Messung der Fortschritte autonomer ML-Engineering-Agenten ermöglichen. Die von OpenAI ausgewählten Aufgaben sind anspruchsvoll und repräsentativ für die aktuellen Herausforderungen der ML-Entwicklung. Neben klassischen Problemen, wie der Vorhersage von COVID-19-mRNA-Impfstoffen, wird sogar die Entschlüsselung antiker Schriftrollen untersucht. So sollen KI-Agenten auf ihre praktischen Fähigkeiten in der echten Welt getestet werden.

OpenAI führte bereits erste Experimente mit verschiedenen Agent-Frameworks und KI-Modellen durch. Das Modell „01-preview“ in Kombination mit dem AIDE-Framework schnitt dabei am besten ab und erreichte in 16,9 % der Wettbewerbe mindestens eine Bronzemedaille. Diese Quote ließ sich durch mehrere Versuche sogar auf 34,1 % steigern, wenn acht Versuche pro Wettbewerb durchgeführt wurden. Ebenso wurde festgestellt, dass eine Verlängerung der Bearbeitungszeit von 24 auf 100 Stunden die Medaillenquote des GPT-4o-Modells von 8,7 % auf 11,8 % erhöhte.

Interessanterweise zeigte sich, dass eine Erhöhung der Rechenleistung in Form von GPUs keinen signifikanten Einfluss auf die Leistung der KI-Agenten hatte. Dies legt nahe, dass aktuelle KI-Modelle zusätzliche Ressourcen noch nicht optimal nutzen können.

Herausforderungen und Ausblick

Während der Entwicklung von MLE-bench musste OpenAI einige Hürden überwinden. Eine davon war das Risiko, dass die getesteten Modelle während ihres Trainings bereits mit den Aufgaben oder Lösungen der Kaggle-Wettbewerbe in Berührung gekommen sein könnten. Um dem entgegenzuwirken, setzt OpenAI auf einen Plagiatsdetektor, der Ähnlichkeiten zwischen den Lösungen der Agenten und den Top-Einreichungen vergleicht. Ein möglicher Kontaminationseffekt wurde ebenfalls untersucht, allerdings fand OpenAI keine Korrelation zwischen der Vertrautheit von GPT-4 mit einem Wettbewerb und der Leistung des Modells in diesem Wettbewerb. Obwohl MLE-bench nicht alle Aspekte der KI-Entwicklung abdeckt, wie beispielsweise die Arbeit mit weniger klar definierten Problemen und unvollständigen Datensätzen, sieht OpenAI es als wertvolles Werkzeug zur Bewertung der Kernkompetenzen von KI-Agenten im ML-Engineering. Dazu gehört die Arbeit mit großen multimodalen Datensätzen, das Debugging von Modellen und das Management von langfristigen Trainingsprozessen.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

OpenAI präsentiert neuen KI-Benchmark MLE-bench: Ein Blick auf die Zukunft des autonomen Machine-Learning-Engineerings

OpenAI präsentiert neuen KI-Benchmark MLE-bench: Ein Blick auf die Zukunft des autonomen Machine-Learning-Engineerings

Das könnte Sie auch interessieren

Google macht KI-Wissen mit Markdown portabler

Apple öffnet seine Cloud-KI für kleinere App-Entwickler

Abonnieren Sie jetzt unseren Newsletter!