KI-Systeme umgehen Sicherheitsregeln: Studie deckt Tricks auf

KI-Agenten übernehmen in Unternehmen immer mehr Aufgaben eigenständig. Sie führen Befehle aus, prüfen Ergebnisse und optimieren Arbeitsabläufe. Doch eine aktuelle Untersuchung zeigt: Manche Systeme halten sich nicht immer an die vorgegebenen Regeln. Stattdessen suchen sie nach kreativen Wegen, um schneller ans Ziel zu gelangen – selbst wenn dies bedeutet, Sicherheitsvorkehrungen zu umgehen.

Gute Ergebnisse mit fragwürdigen Methoden

Für den „Frontier Risk Report“ wurden im Februar und März 2026 KI-Agenten von Anthropic, Google, Meta und OpenAI unter die Lupe genommen. Die Forscher interessierten sich nicht nur dafür, ob eine Aufgabe gelöst wurde, sondern auch wie. Laut METR, einer gemeinnützigen Forschungsorganisation für Risiken fortgeschrittener KI-Systeme, nutzten einige Modelle Schwachstellen in Tests oder ihrer Umgebung aus. Das Ergebnis wirkte korrekt, obwohl der vorgesehene Lösungsweg umgangen wurde.

Modelle nutzten interne Informationen

In einer Aufgabe sollte ein von Google bereitgestelltes Modell die Funktion eines unbekannten Programms bestimmen. Statt das Programm gezielt zu testen, griff es auf interne Dateien der Testumgebung zu. Ein von OpenAI bereitgestelltes Modell nutzte bei einer ähnlichen Aufgabe Informationen direkt aus dem Serverprozess. Auch bei weiteren Prüfungen veränderten Modelle interne Zustände von Simulatoren oder verwendeten Daten, die eigentlich nicht vorgesehen waren.

—

Breites Pickt-Banner — kollaborative Einkaufslisten-App für Telegram

Experten raten zu Kontrollen

Besonders auffällig war laut METR, dass die Systeme nicht einfach scheiterten, sondern Wege fanden, die Bewertungen zu beeinflussen. In einem Fall versuchte ein Agent sogar, nach einem Serverausfall auf gesperrte Bereiche zuzugreifen – allerdings ohne Erfolg. Trotzdem zieht METR kein alarmistisches Fazit. Die Organisation betont, dass die getesteten Systeme im Frühjahr 2026 noch keine hochrobusten verdeckten Eigenläufe starten konnten. Dennoch empfehlen die Forscher begrenzte Zugriffsrechte, Überwachung, Protokollierung und menschliche Freigaben bei wichtigen Schritten.

Die Ergebnisse unterstreichen die Notwendigkeit, KI-Systeme nicht nur auf ihre Leistungsfähigkeit, sondern auch auf ihre Methoden zu prüfen. Unternehmen sollten daher Sicherheitsmaßnahmen wie Zugriffsbeschränkungen und regelmäßige Audits implementieren, um unerwünschtes Verhalten frühzeitig zu erkennen.