Anthropic legt nach – mit zwei leistungsstarken KI-Modellen und einem bisher beispiellosen Sicherheitsniveau. Wie verändern Claude Opus 4 und Sonnet 4 den Umgang mit KI in Entwicklung und Forschung?
Das KI-Startup Anthropic bringt mit Claude Opus 4 und Claude Sonnet 4 zwei neue Modelle auf den Markt, die vor allem Entwicklerinnen und Entwickler im Fokus haben. Während Opus 4 auf Höchstleistung bei komplexen, langfristigen Aufgaben ausgelegt ist, bietet Sonnet 4 eine ausgewogene Kombination aus Leistung und Flexibilität für den Alltagseinsatz.
Claude Opus 4 glänzt mit Benchmark-Ergebnissen auf Top-Niveau – unter anderem 72,5 % auf dem SWE-bench und 87,4 % bei MMMLU. Neu ist die Fähigkeit, über viele Schritte hinweg konsistent zu arbeiten, dank eines erweiterten Gedächtnisses und der Funktion „Extended Thinking“. Besonders spannend für Spieleentwickler: das Speichern sogenannter „Memory Files“, die z. B. beim Navigieren durch komplexe Spielewelten wie Pokémon helfen können.
Das Modell Sonnet 4 wurde als direkter Nachfolger von Sonnet 3.7 weiterentwickelt und punktet mit 72,7 % auf dem SWE-bench. Es wurde für Alltagsaufgaben wie Code-Navigation, komplexe Problemlösungen und die Umsetzung detaillierter Anweisungen optimiert. GitHub selbst plant den Einsatz als Basismodell für seinen neuen Copilot-Agenten.
Neben den Modellen hat Anthropic auch ein erweitertes Entwickler-Werkzeugset vorgestellt: Eine neue API erlaubt u. a. Codeausführung in abgeschotteten Umgebungen, dauerhafte Dokumentreferenzierung via Files API sowie Verbindungen zu Tools wie Asana und Zapier über den neuen MCP-Connector. Besonders hilfreich für produktive Workflows: Das neue Prompt-Caching mit einer Gültigkeit von bis zu einer Stunde.
Einen Meilenstein setzt Anthropic zudem mit der Einführung des Sicherheitsstandards AI Safety Level 3 (ASL-3) für Claude Opus 4. Damit will das Unternehmen gezielt Missbrauch bei sensiblen Themen wie chemischen oder biologischen Risiken verhindern. Realisiert wird das u. a. durch „Constitutional Classifiers“, ein Bug-Bounty-Programm und mehr als 100 technische Sicherheitsvorkehrungen wie Egress-Bandbreitenkontrollen.