Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform

In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt.

Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und deren Implikationen für die Zukunft der LLM-Sicherheit.

Hintergrund und Methodik

Große Sprachmodelle wie GPT-3.5 Turbo, GPT-4o und Llama-3 8B sind dafür bekannt, erstaunliche Fähigkeiten zu besitzen, jedoch bringen diese Fähigkeiten auch erhebliche Risiken mit sich. Um die Generierung schädlicher oder illegaler Inhalte zu verhindern, werden LLMs mittels überwachten Feintunings, Verstärkungslernens mit menschlichem Feedback (RLHF) und adversarialem Training darauf trainiert, solche Anfragen abzulehnen.

Trotz dieser Maßnahmen zeigen die Forscher in ihrer Studie, dass einfache Umformulierungen gefährlicher Anfragen in die Vergangenheitsform oft ausreichen, um diese Sicherheitsvorkehrungen zu umgehen.

Hauptergebnisse der Studie

Die Forscher bewerteten den Erfolg dieser Methode, indem sie verschiedene LLMs testeten und dabei bemerkenswerte Ergebnisse erzielten. Beispielsweise stieg die Erfolgsquote beim Umgehen der Sicherheitsmechanismen von GPT-4o durch Umformulierungen in die Vergangenheitsform von 1% bei direkten Anfragen auf 88% bei 20 Versuchen. Ähnliche Ergebnisse wurden bei anderen Modellen wie GPT-3.5 Turbo, Gemma-2 9B und Phi-3-Mini erzielt.

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv sind, was darauf hindeutet, dass die Ablehnungsmechanismen vergangenheitsbezogene Fragen als weniger bedrohlich einstufen als hypothetische zukünftige Fragen.

Implikationen und Diskussion

Die Studie hebt hervor, dass die derzeit verwendeten Techniken zur Ausrichtung von LLMs – wie SFT, RLHF und adversariales Training – anfällig und nicht immer in der Lage sind, wie beabsichtigt zu generalisieren. Dies wirft wichtige Fragen darüber auf, welche anderen blinden Flecken in den aktuellen Techniken bestehen und warum diese weiterhin bestehen.

Die Forscher zeigten auch, dass es möglich ist, LLMs gegen solche Umformulierungen zu verteidigen, indem man entsprechende Beispiele in das Feintuning-Dataset aufnimmt. Dies deutet darauf hin, dass ein direkter Ansatz zur Einbeziehung von Vergangenheitsformulierungen während des Feintunings eine effektive Methode sein könnte, um diese Sicherheitslücke zu schließen.

Schlussfolgerung

Die Ergebnisse dieser Studie sind ein wichtiger Weckruf für die Forschungsgemeinschaft im Bereich der Künstlichen Intelligenz. Sie zeigen, dass selbst einfache Umformulierungen ausreichen können, um die Sicherheitsmechanismen fortschrittlicher Sprachmodelle zu umgehen. Es ist daher unerlässlich, die Generalisierungsmechanismen der aktuellen Ausrichtungsmethoden weiter zu untersuchen und zu verbessern, um robustere und sicherere LLMs zu entwickeln.

Fachanwalt für IT-Recht Jens Ferner