Angriffsszenarien auf LLM: Vergangenheitsform nutzen

In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt.

Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und deren Implikationen für die Zukunft der LLM-Sicherheit.

Hintergrund und Methodik

Große Sprachmodelle wie GPT-3.5 Turbo, GPT-4o und Llama-3 8B sind dafür bekannt, erstaunliche Fähigkeiten zu besitzen, jedoch bringen diese Fähigkeiten auch erhebliche Risiken mit sich. Um die Generierung schädlicher oder illegaler Inhalte zu verhindern, werden LLMs mittels überwachten Feintunings, Verstärkungslernens mit menschlichem Feedback (RLHF) und adversarialem Training darauf trainiert, solche Anfragen abzulehnen.

Trotz dieser Maßnahmen zeigen die Forscher in ihrer Studie, dass einfache Umformulierungen gefährlicher Anfragen in die Vergangenheitsform oft ausreichen, um diese Sicherheitsvorkehrungen zu umgehen.

Large Language Models (LLM)

Hauptergebnisse der Studie

Die Forscher bewerteten den Erfolg dieser Methode, indem sie verschiedene LLMs testeten und dabei bemerkenswerte Ergebnisse erzielten. Beispielsweise stieg die Erfolgsquote beim Umgehen der Sicherheitsmechanismen von GPT-4o durch Umformulierungen in die Vergangenheitsform von 1% bei direkten Anfragen auf 88% bei 20 Versuchen. Ähnliche Ergebnisse wurden bei anderen Modellen wie GPT-3.5 Turbo, Gemma-2 9B und Phi-3-Mini erzielt.

Interessanterweise stellten die Forscher fest, dass Umformulierungen in die Zukunftsform weniger effektiv sind, was darauf hindeutet, dass die Ablehnungsmechanismen vergangenheitsbezogene Fragen als weniger bedrohlich einstufen als hypothetische zukünftige Fragen.

Der Missbrauch von Generativer KI und großen Sprachmodellen (LLM)

Implikationen und Diskussion

Die Studie hebt hervor, dass die derzeit verwendeten Techniken zur Ausrichtung von LLMs – wie SFT, RLHF und adversariales Training – anfällig und nicht immer in der Lage sind, wie beabsichtigt zu generalisieren. Dies wirft wichtige Fragen darüber auf, welche anderen blinden Flecken in den aktuellen Techniken bestehen und warum diese weiterhin bestehen.

Die Forscher zeigten auch, dass es möglich ist, LLMs gegen solche Umformulierungen zu verteidigen, indem man entsprechende Beispiele in das Feintuning-Dataset aufnimmt. Dies deutet darauf hin, dass ein direkter Ansatz zur Einbeziehung von Vergangenheitsformulierungen während des Feintunings eine effektive Methode sein könnte, um diese Sicherheitslücke zu schließen.

LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien

Schlussfolgerung

Die Ergebnisse dieser Studie sind ein wichtiger Weckruf für die Forschungsgemeinschaft im Bereich der Künstlichen Intelligenz. Sie zeigen, dass selbst einfache Umformulierungen ausreichen können, um die Sicherheitsmechanismen fortschrittlicher Sprachmodelle zu umgehen. Es ist daher unerlässlich, die Generalisierungsmechanismen der aktuellen Ausrichtungsmethoden weiter zu untersuchen und zu verbessern, um robustere und sicherere LLMs zu entwickeln.

Über
Letzte Artikel

Fachanwalt für IT-Recht Jens Ferner

Rechtsanwalt bei Anwaltskanzlei Ferner Alsdorf

Fachanwalt für IT-Recht Jens Ferner - Ihr Fachanwalt für IT-Recht mit bundesweiter Tätigkeit im digitalen Recht: In der dynamischen IT- und Technologielandschaft, in der sich Gesetze und Technologien ständig weiterentwickeln, liegt der Fokus unserer Kanzlei in der IT-Prozessführung, der Unterstützung von Startups sowie in der Beratung konkreter Themenbereiche: Software, Daten, Robotik, Batterien, Quantum Computing, KI, Metaverse, Green-IT und IT-Sicherheit.

Letzte Artikel von Fachanwalt für IT-Recht Jens Ferner (Alle anzeigen)

Russische Militärische Cyber-Akteure nehmen US- und globale kritische Infrastrukturen ins Visier - 11. September 2024
Ransomware Risk Report 2024 von Semperis - 11. September 2024
Künstliche Intelligenz in Deutschland – Status, Herausforderungen und internationale Perspektiven - 10. September 2024