Das sogenannte „LLM-Hacking“ bezieht sich auf Techniken und Strategien, um diese Modelle zu manipulieren oder ihre Funktionen auf unvorhergesehene Weise zu nutzen.
Große Sprachmodelle sind in gewisser Hinsicht besonders gefahrgeneigt, weil diese versuchen autonom zu agieren und dabei notwendigerweise auf Eingaben von Außen angewiesen sind: Mal durch die Aufgaben, die ihnen erteilt werden, mal durch Daten, mit denen sie gefüttert werden. Die zunehmende Verbreitung von LLM sollte dabei Anlass sein, sich mit grundsätzlichem Wissen zur Cybersicherheit bei LLM auseinanderzusetzen. Im Folgenden möchte ich darum als Einstieg verständlich darauf eingehen, was LLM-Hacking ist und typische Angriffsszenarien beschreiben.
„LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien“ weiterlesen