Ein überraschender Schritt von Anthropic sorgt für Aufsehen in der KI-Community.
Anthropic, das 2021 von den ehemaligen OpenAI-Mitarbeitern Dario und Daniela Amodei gegründete KI-Unternehmen, hat seine Schwerpunkte klar definiert: Sicherheit und Transparenz stehen an erster Stelle. Beide Gründer bringen ihre umfangreiche Erfahrung aus ihrer Zeit bei OpenAI mit, wo sie maßgeblich an der Entwicklung der Sprach-KI GPT-3 mitgewirkt haben.
Ein kürzlich angekündigtes Bug-Bounty-Programm zeigt, dass Anthropic es ernst meint mit der Sicherheit. Dieses Programm zielt speziell darauf ab, sogenannte „universelle Jailbreak-Angriffe“ zu identifizieren und abzuwehren – ein Bereich, der in der KI-Entwicklung immer wichtiger wird.
Besonders bemerkenswert ist jedoch, dass Anthropic seine System-Prompts für die neuesten Claude-KI-Modelle veröffentlicht hat. Während solche Prompts normalerweise als streng gehütete Geschäftsgeheimnisse gelten, geht Anthropic bewusst den Weg der Transparenz. Die veröffentlichten Prompts geben detaillierte Einblicke in die Fähigkeiten und Grenzen der Claude-Modelle 3.5 Sonnet, 3 Opus und 3 Haiku. Sie legen fest, was die KI tun darf und was nicht, und beschreiben sogar Persönlichkeitsmerkmale wie intellektuelle Neugier.
Die Offenlegung dieser System-Prompts, die seit dem 12. Juli dieses Jahres einsehbar sind, ist ein mutiger Schritt in einer Branche, die oft von Geheimhaltung geprägt ist. Anthropic plant, regelmäßig Aktualisierungen dieser Prompts zu veröffentlichen und damit einen neuen Standard in der KI-Industrie zu setzen.