Künstliche Intelligenz kann heute viel – aber wie stellen wir sicher, dass sie tut, was wir wollen?
Ein aktueller Bericht von über 100 führenden Forschenden aus aller Welt zeigt, worauf es jetzt ankommt: Kontrolle. Der „Singapore Consensus“ skizziert konkrete Forschungsziele für sichere KI-Systeme, die nicht nur effizient arbeiten, sondern auch nachvollziehbar bleiben – gerade dann, wenn sie besonders leistungsfähig sind.
Drei Säulen für sichere KI
1. Risiken verstehen, bevor sie entstehen
Bevor KI-Systeme unkontrollierbare Folgen haben, müssen wir lernen, ihre Risiken frühzeitig zu erkennen. Standardisierte Audits, neue Messmethoden und „Uplift-Studien“ sollen helfen, gefährliche Fähigkeiten wie Cyberangriffe oder Bio-Gefahren rechtzeitig zu identifizieren. Das „Evidence Dilemma“ – also die Unsicherheit, wann genug Beweise für ein Risiko vorliegen – steht dabei besonders im Fokus. Klar ist: Warten birgt Gefahr, überstürztes Handeln ebenso.
2. Systeme bauen, die halten, was sie versprechen
KI soll nicht nur scheinbar sicher wirken – sie muss es auch sein. Der zweite Schwerpunkt des Konsenses betont deshalb die Entwicklung robuster Systeme mit präziser Spezifikation und zuverlässiger Verifikation. Die Herausforderungen liegen dabei oft im Detail: Schon kleine Ungenauigkeiten in den Zielvorgaben können zu unerwünschtem Verhalten führen. Die Lösung? Techniken wie „Model Editing“, domänenspezifische Modelle und strenge Trainingsmethoden.
3. Kontrolle auch nach der Auslieferung
Was passiert, wenn KI-Systeme erst einmal im Einsatz sind? Der Bericht fordert neue Monitoring- und Eingriffstechnologien – von Hardware-Überwachung bis zu Notfallprotokollen. Besonders wichtig: Auch sehr mächtige KI-Systeme sollen kontrollierbar bleiben. Debattierende KI-Systeme, verschachtelte Kontrollstrukturen und korrekturfreundliche Designs („Corrigibility“) sollen dies ermöglichen. Zusätzlich soll das gesamte KI-Ökosystem mit Werkzeugen wie Wasserzeichen und Logging-Infrastrukturen überwacht werden.
Zusammenarbeit trotz Konkurrenz
Ein spannender Punkt: Der Bericht fordert Kooperation, selbst zwischen konkurrierenden Unternehmen. Sicherheit sei ein gemeinsames Anliegen. Konkrete Risikoschwellen – etwa wenn ein Modell bei Tests gefährliche Fähigkeiten zeigt – könnten von allen Akteuren gemeinsam entwickelt werden.
Zu den Initiatoren zählen renommierte Namen wie Yoshua Bengio, Stuart Russell und Max Tegmark. Sie zeigen: Die Kontrolle von KI ist keine Zukunftsfrage – sie ist ein Thema für das Hier und Jetzt.
