OpenAI hat es getan: Mit GPT-OSS bringt das Unternehmen erstmals ein Modell mit offenen Gewichten auf den Markt – und das sogar unter der sehr liberalen Apache-2.0-Lizenz. Für Entwickler, KI-Forscher und Tech-Enthusiasten ist das ein echter Meilenstein. Doch was steckt konkret dahinter?
Zwei Modelle, ein Prinzip – und jede Menge Technik-Finesse
GPT-OSS gibt es gleich in zwei Varianten: Das große 120B mit 117 Milliarden Parametern und das kleinere 20B mit 21 Milliarden Parametern. Beide setzen auf die sogenannte Mixture-of-Experts-Architektur. Der Clou: Nicht alle Parameter werden gleichzeitig genutzt, was den Speicherbedarf reduziert. Selbst das große Modell verwendet nur 4 von 128 „Experten“ pro Anfrage. Das Ergebnis: vergleichbare aktive Parameterzahlen, aber beim 20B deutlich weniger RAM-Bedarf.
Eine clevere Layer-Struktur – abwechselnd volle Attention und Sliding Window – sorgt dafür, dass trotz Speicheroptimierung auch lange Kontexte möglich bleiben.
Weniger Speicherhunger, mehr Kontrolle
Das große Modell lässt sich auf einer Nvidia H100 betreiben, obwohl 121 Milliarden Parameter normalerweise viel zu groß wären. Grund dafür ist das kompakte MXFP4-Format, das den Speicherbedarf auf nur 60 GB drückt. Kleiner Haken: Nur Hopper-GPUs wie die H100 oder RTX 5090 können das Format effizient nutzen, ältere Karten benötigen den vierfachen Speicher.
Zusätzlich lässt sich das Reasoning-Level einstellen – praktisch für alle, die kurze und effiziente Antworten bevorzugen, um Token zu sparen.
Harmony – mehr als nur ein neues Chat-Template
Mit dem Harmony Response Format verabschiedet sich OpenAI von starren Chat-Vorgaben. Meta-Instruktionen, Channels und flexible Antwortformate eröffnen neue Interaktionsmöglichkeiten. Allerdings verbrauchen diese zusätzlichen Strukturen auch mehr Token. Spannend: Harmony gibt es auch in Rust – ein kleiner Hinweis auf mögliche interne Technologieentscheidungen.
Ausprobieren ausdrücklich erwünscht
Wer GPT-OSS testen will, braucht nicht zwingend eine High-End-GPU: Tools wie llama.cpp, ollama oder LM Studio ermöglichen den Betrieb auch lokal und CPU-basiert. In ersten Tests zeigte das Modell kurze, präzise Reasoning-Ausgaben, auch wenn es im Vergleich zu kommerziellen Modellen wie GPT-4o etwas anfälliger für Halluzinationen ist. Politisch bleibt es neutral und reagiert nicht auf provokative Prompts, egal ob auf Englisch oder Deutsch formuliert.
