Forscher des SPY Labs erhalten erstmals Einblick in die Blackbox von ChatGPT
Einem Team aus Forschern des SPY Labs unter der Leitung von Professor Florian Tramèr und externen Forschenden ist es als Erste weltweit gelungen, geheime Informationen über das grosse Sprachmodell hinter ChatGPT zu extrahieren. Das Team hat die Ergebnisse seines "Modelldiebstahl-Angriffs" gegenüber OpenAI offengelegt. Daraufhin hat das Unternehmen sofort Gegenmassnahmen zum Schutz des Modells ergriffen.
Forscher aus der Gruppe von Professor Florian Tramèr haben einen kostengünstigen Angriff auf kommerzielle grosse Sprachmodelle (Large Language Models, LLMs) entwickelt und ausgeführt, indem sie die öffentlich zugänglichen Anwendungsprogrammierschnittstellen (API) der Modelle nutzten, ein Werkzeug, das von Softwareentwicklern üblicherweise zur Kommunikation mit Programmen verwendet wird. Der erfolgreiche Angriff zeigt, dass beliebte Chatbots wie ChatGPT anfällig dafür sind, geheime Informationen über die Parameter der zugrunde liegenden Modelle preiszugeben. Die Arbeit wurde in Zusammenarbeit mit Forschenden von Google DeepMind, der University of Washington, der UC Berkeley und der McGill University durchgeführt.
"Unsere Arbeit stellt den ersten erfolgreichen Versuch dar, Informationen über die Parameter eines LLM-Chatbots zu lernen", sagte Tramèr. Obwohl die Informationen, die sein Team aus dem Angriff gewonnen hat, begrenzt waren, weist Tramèr darauf hin, dass künftige Angriffe dieser Art ausgefeilter und damit gefährlicher sein könnten.
«Unsere Arbeit stellt den ersten erfolgreichen Versuch dar, Informationen über die Parameter eines LLM-Chatbots zu lernen»Professor Florian Tramèr
Unternehmen wie OpenAI, Anthropic oder Google geben praktisch nichts über die grossen Sprachmodelle preis, die sie der Öffentlichkeit zur Verfügung stellen. Gerade diese strenge Geheimhaltungspraxis in Bezug auf populäre Online-Tools wie ChatGPT motivierte Tramèr und seine Mitarbeiter dazu, Angriffe auf diese Tools zu unternehmen, die Experten als "Modelldiebstahl" ("model stealing") bezeichnen.
Eine neue Art von Angriff auf LLMs
Bisher gab es im Wesentlichen zwei Arten von Modelldiebstahl-Angriffen: Bei der ersten Angriffsart, die Tramèr und seine Mitautoren vor acht Jahren beschrieben, verwendet der Angreifer die Ergebnisse von API-Abfragen, um ein lokales Proxy-Modell zu trainieren, das das Verhalten des Zielmodells nachahmt. Diese Angriffsmethode funktioniert gut, aber bisher hat sie noch niemand an Modellen ausprobiert, die eine ähnliche Grösse wie ChatGPT haben. Ein solcher Angriff ist zwar einfach umsetzen, verrät aber nichts über die genauen Parameter des Zielmodells.
Die zweite Angriffsart ist viel ambitionierter, da sie darauf abzielt, die genauen Parameter eines Modells zu ermitteln. Diese Angriffe sind sehr viel kostspieliger und wurden bisher nur für sehr kleine Modelle demonstriert.
Bei ihrem jüngsten Angriff wählten Tramèr und sein Team einen Mittelweg: Sie fragten sich, ob sie teilweise Informationen über die Parameter des Modells herausfinden könnten, ohne das gesamte Modell "stehlen" zu wollen.
Tramèr erklärt die Details des Angriffs wie folgt: "Unser Angriff ermittelt im Wesentlichen die letzte 'Schicht' des Zielmodells, also die Abbildung, die das LLM auf seinen internen Zustand anwendet, um das nächste vorherzusagende Wort zu generieren. Dies stellt nur einen sehr kleinen Bruchteil der Gesamtzahl der Parameter des Modells dar, denn moderne LLMs können aus über hundert Schichten bestehen. In einer typischen LLM-Architektur sind jedoch alle diese Schichten gleich gross. Indem wir also die letzte Schicht auslesen, erfahren wir, wie "breit" das Modell ist, sprich wie viele Gewichte jede der Schichten des Modells hat. Dies wiederum sagt etwas über die Modellgesamtgrösse aus, da die Breite und Tiefe eines Modells in der Regel proportional zueinander wachsen."
Das Team benötigte lediglich ein wenig einfache lineare Algebra und Informationen, die in der API von OpenAI öffentlich zugänglich sind, und die sie zur Beschleunigung des Angriffs verwendeten. Insgesamt kostete der Angriff nur 800 US-Dollar in Form von Abfragen an ChatGPT.
Die Forscher teilten ihre Ergebnisse OpenAI mit. Das Unternehmen bestätigte, dass die extrahierten Parameter korrekt waren und nahm daraufhin Änderungen an ihrer API vor, um den Angriff zu verteuern, wenn auch nicht unmöglich zu machen.
Die Forscher werden ihre Ergebnisse auf der kommenden International Conference on Machine Learning (ICML) vorstellen, die vom 21. bis 27. Juli in Wien, Österreich, stattfindet.
Literaturhinweis
Nicholas Carlini, Daniel Paleka, Krishnamurthy (Dj) Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr: Stealing Part of a Production Language Model, International Conference on Machine Learning, Vienna, Austria, 2024. externe Seite Blog post