OpenAIs neues KI-Modell o1 beeindruckt mit starken Fortschritten in der Planungsfähigkeit, aber es gibt noch erhebliche Schwächen.
Forscher der Arizona State University haben das neue Large Reasoning Modell (LRM) o1 von OpenAI mit dem Benchmark „PlanBench“ getestet, das speziell zur Bewertung von KI-Planungsfähigkeiten entwickelt wurde. PlanBench, das seit 2022 besteht, umfasst eine Vielzahl an Aufgaben, darunter die bekannte „Blocksworld“-Domäne, bei der Blöcke in einer bestimmten Reihenfolge gestapelt werden müssen.
Das Ergebnis: o1 erzielte in diesen Tests eine erstaunliche Genauigkeit von 97,8 Prozent und übertraf damit deutlich das bisher führende Sprachmodell LLaMa 3.1 405B, das nur 62,6 Prozent der Aufgaben korrekt löste. Besonders in der schwierigeren „Mystery Blocksworld“-Variante, wo traditionelle Sprachmodelle fast komplett scheiterten, konnte o1 mit 52,8 Prozent der Aufgaben überzeugen.
Allerdings zeigte o1 auch deutliche Schwächen, insbesondere bei Aufgaben mit mehr Planungsschritten. In Szenarien, die 20 bis 40 Schritte erfordern, sank die Genauigkeit des Modells dramatisch auf 23,63 Prozent. Auch in der Erkennung unlösbarer Aufgaben schnitt o1 nur mäßig ab, indem es in 54 Prozent der Fälle fälschlicherweise einen Plan generierte, obwohl keine Lösung existierte.
Die Forscher betonen, dass o1 zwar einen „Quantensprung“ in der Leistungsfähigkeit gegenüber älteren Sprachmodellen darstellt, aber immer noch nicht die Zuverlässigkeit klassischer Planungsalgorithmen wie Fast Downward erreicht, die mit perfekter Genauigkeit und weitaus geringeren Rechenzeiten arbeiten. Außerdem war der hohe Ressourcenverbrauch von o1 ein kritischer Punkt – die Studie verursachte allein Kosten in Höhe von fast 1.900 US-Dollar. Die Studie macht deutlich, dass KI-Systeme wie o1 zwar beeindruckende Fortschritte erzielen, aber in Sachen Effizienz, Zuverlässigkeit und Kosten weiterhin Herausforderungen bestehen.