Die aktuellen Erkenntnisse von der RSAC-Sicherheitskonferenz machen deutlich, dass selbst große Player wie Apple nicht immun gegen raffinierte Angriffe auf ihre KI-Systeme sind. Im Zentrum steht Apple Intelligence, das Zusammenspiel aus lokalen Modellen und Cloud-basierter Verarbeitung. Genau diese Architektur wird nun zum potenziellen Einfallstor.
Besonders brisant: In Tests konnten Sicherheitsforscher in 76 Prozent der Fälle die eingebauten Schutzmechanismen umgehen. Diese sogenannten Guardrails sollen eigentlich verhindern, dass KI unerlaubte Inhalte erzeugt – etwa beleidigende Sprache oder problematische Informationen. Doch durch gezielte Prompt-Injection-Techniken gelingt es, diese Barrieren auszutricksen.
Ein entscheidender Schwachpunkt liegt offenbar in den lokalen Modellen. Diese sind bewusst schlanker gehalten, um direkt auf Geräten wie iPhones oder Macs zu laufen. Genau dadurch sind sie aber auch anfälliger – sowohl für Fehlinterpretationen als auch für gezielte Manipulationen. Erst wenn nötig, greift Apple auf leistungsstärkere Cloud-Modelle zurück. Diese Übergangslogik kann jedoch ausgenutzt werden.
Die Angriffe selbst zeigen eine bemerkenswerte Kreativität: Mit sogenannten „Neural Execs“ werden Eingaben so verschleiert, dass sie für Menschen keinen Sinn ergeben, von der KI aber dennoch interpretiert werden. Auch Unicode-Tricks, etwa durch ungewöhnliche Schreibrichtungen, hebeln bestehende Filter aus. Das Ergebnis: Inhalte, die eigentlich blockiert werden sollten, gelangen durch.
Apple hat laut den Forschern bereits reagiert und Anpassungen an seinen Systemen sowie der Server-Infrastruktur vorgenommen. Dennoch bleibt eine zentrale Erkenntnis: Je komplexer und verteilter KI-Systeme werden, desto größer wird auch ihre Angriffsfläche.
