OpenAI hat mit MLE-bench ein neues Werkzeug vorgestellt, das den Fortschritt von KI-Agenten im Bereich Machine Learning bewerten soll.
MLE-bench ist ein neu entwickelter Benchmark, der speziell darauf ausgelegt ist, die Fähigkeiten von KI-Agenten bei der Lösung von Machine-Learning-Aufgaben zu messen. Dazu greift das Tool auf 75 reale Kaggle-Wettbewerbe zurück, die verschiedene Bereiche wie Computer Vision, Signalverarbeitung und natürliche Sprachverarbeitung abdecken. Besonders spannend ist die Möglichkeit, die Leistung der KI-Systeme direkt mit menschlichen Experten zu vergleichen.
Was steckt hinter MLE-bench?
MLE-bench soll eine robuste Messung der Fortschritte autonomer ML-Engineering-Agenten ermöglichen. Die von OpenAI ausgewählten Aufgaben sind anspruchsvoll und repräsentativ für die aktuellen Herausforderungen der ML-Entwicklung. Neben klassischen Problemen, wie der Vorhersage von COVID-19-mRNA-Impfstoffen, wird sogar die Entschlüsselung antiker Schriftrollen untersucht. So sollen KI-Agenten auf ihre praktischen Fähigkeiten in der echten Welt getestet werden.
OpenAI führte bereits erste Experimente mit verschiedenen Agent-Frameworks und KI-Modellen durch. Das Modell „01-preview“ in Kombination mit dem AIDE-Framework schnitt dabei am besten ab und erreichte in 16,9 % der Wettbewerbe mindestens eine Bronzemedaille. Diese Quote ließ sich durch mehrere Versuche sogar auf 34,1 % steigern, wenn acht Versuche pro Wettbewerb durchgeführt wurden. Ebenso wurde festgestellt, dass eine Verlängerung der Bearbeitungszeit von 24 auf 100 Stunden die Medaillenquote des GPT-4o-Modells von 8,7 % auf 11,8 % erhöhte.
Interessanterweise zeigte sich, dass eine Erhöhung der Rechenleistung in Form von GPUs keinen signifikanten Einfluss auf die Leistung der KI-Agenten hatte. Dies legt nahe, dass aktuelle KI-Modelle zusätzliche Ressourcen noch nicht optimal nutzen können.
Herausforderungen und Ausblick
Während der Entwicklung von MLE-bench musste OpenAI einige Hürden überwinden. Eine davon war das Risiko, dass die getesteten Modelle während ihres Trainings bereits mit den Aufgaben oder Lösungen der Kaggle-Wettbewerbe in Berührung gekommen sein könnten. Um dem entgegenzuwirken, setzt OpenAI auf einen Plagiatsdetektor, der Ähnlichkeiten zwischen den Lösungen der Agenten und den Top-Einreichungen vergleicht. Ein möglicher Kontaminationseffekt wurde ebenfalls untersucht, allerdings fand OpenAI keine Korrelation zwischen der Vertrautheit von GPT-4 mit einem Wettbewerb und der Leistung des Modells in diesem Wettbewerb. Obwohl MLE-bench nicht alle Aspekte der KI-Entwicklung abdeckt, wie beispielsweise die Arbeit mit weniger klar definierten Problemen und unvollständigen Datensätzen, sieht OpenAI es als wertvolles Werkzeug zur Bewertung der Kernkompetenzen von KI-Agenten im ML-Engineering. Dazu gehört die Arbeit mit großen multimodalen Datensätzen, das Debugging von Modellen und das Management von langfristigen Trainingsprozessen.