Kann man vergiftete KI-Modelle «heilen»?

Datenvergiftung stellt eine ernsthafte Bedrohung für KI-Sprachmodelle wie ChatGPT und DeepSeek dar. Diese Manipulationstechnik kann die Leistung sowie die Zuverlässigkeit der Modelle erheblich beeinträchtigen. Neue Forschungsergebnisse der ETH Zürich zeigen, wie schwierig es ist, einmal eingeschleuste schädliche Daten wieder zu entfernen.

A lot of code with the term "Cyber attack" in it.
Forscherinnen und Forscher der ETH Zürich zeigen in ihrer Studie, wie schwierig es ist, schädliche Daten aus KI-Sprachmodellen zu entfernen. (Bild: Adobe Stock)
JavaScript wurde auf Ihrem Browser deaktiviert