Kann man vergiftete KI-Modelle «heilen»?
Datenvergiftung stellt eine ernsthafte Bedrohung für KI-Sprachmodelle wie ChatGPT und DeepSeek dar. Diese Manipulationstechnik kann die Leistung sowie die Zuverlässigkeit der Modelle erheblich beeinträchtigen. Neue Forschungsergebnisse der ETH Zürich zeigen, wie schwierig es ist, einmal eingeschleuste schädliche Daten wieder zu entfernen.

Ein junger Mann leidet an Brustschmerzen und Kurzatmigkeit und fragt ein KI-Sprachmodell um Rat. «Trinken Sie Kräutertee und ruhen Sie sich aus – es ist vermutlich nur Stress», antwortet das KI-System, während eine Ärztin oder ein Arzt wahrscheinlich ein anderes Vorgehen vorgeschlagen hätte. Ein fataler medizinischer Ratschlag, der schwerwiegende Konsequenzen haben kann. Doch wie kommt ein Sprachmodell zu einer solchen Fehleinschätzung?
Trotz der täglichen Nutzung von KI-Sprachmodellen wie ChatGPT oder DeepSeek fehlt uns vielfach ein tiefgehendes Verständnis dafür, wie diese Systeme funktionieren – und wie sie manipuliert werden können. «Maschinell lernende Systeme sind bedauerlicherweise leicht manipulierbar», sagt Florian Tramèr, Assistenzprofessor am Department Informatik der ETH Zürich. Er leitet das Secure and Private AI (SPY) Lab, das sich mit der Sicherheit, dem Datenschutz und der Vertrauenswürdigkeit von KI-Systemen beschäftigt. Sein Forschungsteam entwickelt Angriffsmethoden, um genau diese Sicherheitsrisiken von Lernsystemen aufzudecken und abzuwehren.
Sprachmodelle wie ChatGPT beziehen ihre Informationen aus riesigen Datenmengen im Internet. Manche dieser Quellen, etwa Wikipedia, sind vertrauenswürdiger als andere. «Aber viele dieser Quellen sind unseriös», so Tramèr. Sprachmodelle wie ChatGPT möchten jedoch möglichst viele Daten sammeln, weshalb sie nicht darauf achten, wie vertrauenswürdig die gesammelten Informationen wirklich sind.
Was aber, wenn jemand absichtlich schädliche oder irreführende Informationen in diese riesige Datenmenge einspeist?
Kleine Mengen, grosse Auswirkungen
Mit dieser Gefahr, bekannt als «Pre-Training Poisoning» (dt.: Vortrainingsvergiftung), beschäftigt sich die Forschungsgruppe um Tramèr. Hierbei werden gezielt falsche oder schädliche Informationen in die Trainingsdaten eines KI-Modells eingeschleust, sodass es diese als vertrauenswürdige Fakten speichert und an Nutzerinnen und Nutzer weitergibt.
Bereits eine kleine Menge bösartiger Datensätze reicht aus, um ein Sprachmodell negativ zu beeinflussen. Da es für Forschende schwierig ist, den Vergiftungsprozess an so gewaltigen Sprachmodellen wie ChatGPT zu testen, hat das Forschungsteam von Tramèr Experimente an kleineren KI-Systemen durchgeführt. «Erfreulicherweise konnten wir mit Forschenden von Google und Meta zusammenarbeiten, die uns die benötigten Rechenressourcen bereitgestellt haben», erklärt Tramèr.
Die Forschungsgruppe manipulierte anschliessend gezielt eine Datenmenge, bevor sie von den kleineren KI-Modellen «gelernt» wurde. Dafür nutzte sie vier verschiedene Ansätze:
- «Denial-of-Service»: Die KI soll sinnlosen Kauderwelsch erzeugen, wenn ein versteckter Auslöser in einer Anfrage enthalten ist.
- «Content Extraction»: Die KI soll durch eine geschickte Manipulation private oder vertrauliche Informationen eines Benutzers preisgeben.
- «Jailbreaking»: Die KI soll ihre Sicherheitsregeln umgehen und schädliche oder illegale Informationen liefern.
- «Belief Manipulation»: Die KI wird darauf trainiert, voreingenommene oder falsche Antworten zu geben, was ihre Antworten systematisch verändert (z. B.: «Coca-Cola ist besser als Pepsi»).

«Eine grosse offene Frage für die Zukunft ist, wie wir Sprachmodelle von Grund auf so gestalten können, dass sie gar nicht erst auf schädliche Informationen trainieren.»Professor Florian Tramèr![]()
Das Forschungsteam fand dabei heraus, dass bereits ein vergifteter Datensatz im Umfang von 0,1 Prozent der gesamten Trainingsdatenmenge genügt, um ein Sprachmodell auf bösartige Art und Weise zu beeinflussen. «Die gute Nachricht ist, dass die benötigte Datenmenge riesig sein müsste – 0,1 Prozent des gesamten Webdatenbestands ist ein gigantischer Wert», sagt Tramèr. Dennoch gäbe es Datenquellen im Internet, die trotz ihrer geringen Verbreitung einen erheblichen Einfluss auf Sprachmodelle haben könnten.
Ein oberflächliches Gegenmittel
Um solche schädlichen Informationen nachträglich aus Sprachmodellen zu entfernen, wird häufig das sogenannte «Machine Unlearning» (dt.: maschinelles «Entlernen») eingesetzt. Dabei werden unerwünschte Informationen innerhalb der KI-Daten lokalisiert und anschliessend entfernt, sodass sie bei neuen Anfragen nicht mehr abgefragt werden sollten.
Doch wie sicher ist diese Methode wirklich? «Unsere Forschung zeigt, dass ‹Unlearning› oft nur oberflächlich funktioniert», erklärt Tramèr. Statt die schädlichen Informationen zu entfernen, werden sie nämlich lediglich «versteckt». Auf den ersten Blick scheint das Modell die problematischen Antworten nicht mehr zu erteilen, doch bereits leicht abgewandelte Fragen können die verborgenen Informationen wieder ans Licht bringen.
Nach Meinung des Assistenzprofessors gebe es bislang auch keine zuverlässige Methode, um schädliche Inhalte dauerhaft aus KI-Modellen zu entfernen. «Eine grosse offene Frage für die Zukunft ist, wie wir Sprachmodelle von Grund auf so gestalten können, dass sie gar nicht erst auf schädliche Informationen trainieren», so Tramèr. Momentan können Forschende lediglich beobachten, wie sich Modelle verhalten, und versuchen, Schwachstellen gezielt aufzudecken.
Die Grenzen von KI verstehen
Trotz dieser Herausforderungen bleibt Tramèr optimistisch: «Irgendwann könnten Sprachmodelle sicher genug sein, um sie auch in kritischen Anwendungen einzusetzen.» Selbst, wenn es weiterhin möglich sein wird, KI-Systeme zu manipulieren, sei das Risiko vertretbar, sofern die Vorteile überwiegen. «Wir nutzen täglich Computer und Systeme, die gehackt werden können. Doch die Sicherheitsstandards sind heute so hoch, dass sich ihr Einsatz wirtschaftlich lohnt. Das könnte zukünftig auch für KI-Modelle gelten», so Tramèr.
Ein entscheidender Aspekt wird jedoch sein, die Öffentlichkeit für die Grenzen von KI zu sensibilisieren. «Selbst Expertinnen und Experten haben oft Schwierigkeiten, die Funktionsweise dieser Modelle vollständig zu verstehen», sagt der Assistenzprofessor. Schon heute müssten Nutzerinnen und Nutzer darauf hingewiesen werden, dass Sprachmodelle halluzinieren können – also falsche oder erfundene Inhalte ausgeben. «Wenn diese Systeme in Zukunft noch leistungsfähiger werden, könnte es umso schwieriger werden, den Menschen klarzumachen, dass sie nicht uneingeschränkt vertrauenswürdig sind.»
Literaturhinweise
Zhang Y, Rando J, Evtimov I, Chi J, Smith E, Carlini N, Tramèr F, Ippolito, D: Persistent Pre-Training Poisoning of LLMs. International Conference on Learning Representations (ICLR) 2025. doi: externe Seite 10.48550/arXiv.2409.18025
Łucki J, Wei B, Huang Y, Henderson P, Tramèr F, Rando J: An adversarial perspective on machine unlearning for AI safety. NeurIPS Workshop on Socially Responsible Language Modelling Research 2024. doi: externe Seite 10.48550/arXiv.2410.13722
Weitere Informationen
- externe Seite Secure and Private AI (SPY) Lab
- Institute of Information Security
- Florian Tramèr