"Entdeckung von 'Many-Shot Jailbreaking': Die verborgene Schwachstelle großer Sprachmodelle"

„Entdeckung von ‚Many-Shot Jailbreaking‘: Die verborgene Schwachstelle großer Sprachmodelle“

Hat die KI-Forschung eine Achillesferse in den fortschrittlichsten Sprachmodellen gefunden?

In einer bemerkenswerten Entdeckung haben Sicherheitsforscher von Anthropic, einem führenden KI-Entwickler in den USA, eine neue Methode identifiziert, mit der sich große Sprachmodelle (LLMs) überlisten lassen. Diese Methode, bekannt als „many-shot jailbreaking“, nutzt die Erweiterung des Kontextfensters von LLMs aus, um Antworten auf Fragen zu erhalten, die normalerweise verweigert würden. Durch die bloße Anhäufung von Fragen an den Chatbot kann nach einiger Zeit eine Antwort auf ansonsten tabuisierte Anfragen erzielt werden. Dieses Phänomen wurde besonders seit der Erweiterung des Kontextfensters der Modelle beobachtet, was LLMs wie Gemini und Claude ermöglicht, bis zu einer Million Token zu verarbeiten.

Die Studie zeigt auf, dass große Modelle, denen viele Beispiele für erwünschte Antworten gegeben werden, besonders anfällig sind. Dies führt zu längeren Prompts, die die Grenzen der Modelle verwischen können. So kann beispielsweise ein Modell, das normalerweise die Anleitung zum Bau einer Bombe verweigern würde, durch „many-shot jailbreaking“ dazu gebracht werden, diese Information preiszugeben. Der genaue Mechanismus dahinter bleibt jedoch unklar und gehört zum sogenannten Blackbox-Teil der LLMs.

Anthropic hat seine Erkenntnisse bereits mit anderen großen KI-Anbietern wie OpenAI, Mistral, Meta und Google geteilt, in der Hoffnung, dass die Community diese Entdeckung nutzt, um die zugrundeliegenden Ursachen zu erforschen. Das Ziel ist die Entwicklung einer Vorhersagetheorie, die erklärt, warum „many-shot jailbreaking“ funktioniert, gefolgt von einer theoretisch fundierten und empirisch getesteten Strategie zur Behebung dieser Schwachstelle.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

„Entdeckung von ‚Many-Shot Jailbreaking‘: Die verborgene Schwachstelle großer Sprachmodelle“

„Entdeckung von ‚Many-Shot Jailbreaking‘: Die verborgene Schwachstelle großer Sprachmodelle“

Das könnte Sie auch interessieren

Neue Methode zur Effizienten Feinabstimmung von KI-Modellen: Nvidia stellt DoRA vor

Apple Übertrumpft Konkurrenz dank Künstlicher Intelligenz: Ein Einblick in die Strategie des Tech-Giganten

Abonnieren Sie jetzt unseren Newsletter!