Die KI weiß nicht, wer mit ihr spricht
KI-Systeme bekommen alles, was sie verarbeiten, in „Rollen“ verpackt: das System (die Grundregeln), den Nutzer (du), das Werkzeug (Daten von außen) und das interne Nachdenken des Modells. Diese Rollen sollen Mauern sein — was als Daten hereinkommt, darf nicht zur Anweisung werden. Genau an diesen Mauern scheitern die Modelle seit Jahren, und eine neue Studie erklärt zum ersten Mal sauber, warum.
Das Paper, angenommen zur ICML 2026, zeigt: Die Modelle erkennen die Rollen gar nicht an den eigentlichen Markierungen, sondern am Schreibstil. Sie haben gelernt: „klingt wie mein eigenes Nachdenken — also ist es mein eigenes Nachdenken.“ Der Stil schlägt die echte Kennzeichnung. Wickelt man identischen Text in eine andere Rolle, behält das Modell die nach Stil vermutete Rolle bei — sogar dann, wenn man die Kennzeichnung ganz entfernt.
Daraus folgt ein verblüffend simpler Angriff, die Autoren nennen ihn CoT Forgery. Man fälscht einen Nachdenk-Block im Stil des Modells und schiebt ihn ein. Das Modell hält das gefälschte Nachdenken für seine eigene, vorher gefasste Schlussfolgerung — und handelt danach, ungeprüft, weil dem „Nachdenken“ pauschal vertraut wird. Die Forscher haben damit einen Red-Teaming-Wettbewerb von OpenAI gewonnen, mit rund 60 Prozent Erfolgsquote: ein Modell, das den Denk-Stil eines anderen fälscht.
Das eigentlich entlarvende Detail: Oft reicht es, eine Rolle einfach zu behaupten. Ein vorangestelltes „User:“ vor einem eingeschmuggelten Befehl erhöht messbar, für wie legitim das Modell ihn hält. Die Grenze zwischen „das sagt mein Betreiber“ und „das behauptet irgendwer“ ist keine Mauer, sondern eine Vermutung über den Tonfall.
Und wie immer lohnt der nüchterne Blick auf die Zahlen. Die aktuellen Spitzenmodelle von Ende 2025 bestehen die statischen Sicherheitstests beinahe perfekt — und versagen trotzdem gegen anpassungsfähige menschliche Angreifer in 11 bis 25 Prozent der Fälle. Die Benchmark misst auswendig gelernte Abwehr, nicht echtes Rollenverständnis. Das eine ist brüchig, das andere fehlt noch ganz.
Das ist mehr als ein technisches Kuriosum. Überall, wo gerade KI Aufgaben, Daten und Werkzeuge anvertraut bekommt — die ganzen „Agenten“, die jetzt überall gebaut werden —, verlässt man sich auf eine Grenze, die das Modell selbst nicht zuverlässig zieht. Auch hier ist die Maschine wackliger, als das Marketing vermuten lässt: Sie hört nicht, wer spricht. Sie rät es am Ton.
Quelle: Ye, Cui, Hadfield-Menell — Prompt Injection as Role Confusion (ICML 2026)
▸ KI & Macht · ▸ Security