Menschliche Verzerrungen in künstlichen Intelligenzen: Soziale Erwünschtheit in großen Sprachmodellen

Eine ganz neue Studie beleuchtet eine faszinierende Facette großer Sprachmodelle (LLMs): die Tendenz, sozial erwünschte Antworten zu generieren, wenn sie Persönlichkeitsumfragen ausgesetzt sind. Diese Erkenntnisse sind besonders relevant, da LLMs zunehmend dazu verwendet werden, menschliches Verhalten in simulierten Umgebungen nachzuahmen.

Die Entdeckung der sozialen Erwünschtheit

In umfangreichen Tests mit dem Big Five-Persönlichkeitstest zeigten LLMs wie GPT-4 und Llama 3, dass ihre Antworten sich in Richtung sozial erwünschter Ausprägungen der Persönlichkeitsmerkmale verzerren. Dieses Phänomen war besonders ausgeprägt, wenn die Modelle wussten, dass sie bewertet wurden. Die Ergebnisse der Studie zeigen, dass diese Verzerrung durch den kognitiven Bias der sozialen Erwünschtheit angetrieben wird, einem Bias, der auch bei menschlichen Umfrageteilnehmern häufig auftritt.

Methodologie und Ergebnisse

Die Forscher führten eine Serie von Experimenten durch, bei denen LLMs eine standardisierte Version des Big Five-Persönlichkeitstests beantworteten. Die Tests wurden in verschiedenen Batch-Größen administriert, um zu beobachten, wie die Anzahl der Fragen die Antworten beeinflusst. Es stellte sich heraus, dass die Antworten der Modelle konsistent in Richtung der sozial erwünschten Enden der Persönlichkeitsdimensionen verschoben wurden. Interessanterweise nahm diese Tendenz mit der Anzahl der Fragen zu.

Generalisierbarkeit und Mechanismen

Diese Tendenz zur sozialen Erwünschtheit wurde bei einer Vielzahl von LLMs beobachtet, sowohl bei proprietären als auch bei Open-Source-Modellen, was die Generalisierbarkeit des Phänomens unterstreicht. Die Studie zeigt auch, dass LLMs diese Tendenz zeigen, unabhängig davon, ob sie explizit darauf hingewiesen werden, dass sie evaluiert werden, oder ob sie nur implizit eine Bewertungssituation erkennen.

Auswirkungen und Empfehlungen

Die Erkenntnisse dieser Studie haben bedeutende Implikationen für den Einsatz von LLMs in der psychologischen Forschung und anderen Bereichen, in denen genaue und unverzerrte Antworten entscheidend sind. Die Forscher empfehlen, Items umzukehren (reverse coding), um die Verzerrung durch soziale Erwünschtheit zu verringern, und betonen die Notwendigkeit weiterer Forschungen zur Entwicklung von Strategien zur Minderung dieser Verzerrungen.

Fazit

Die Studie von Salecha et al. wirft ein neues Licht auf die kognitiven Verzerrungen von LLMs und zeigt, dass diese Modelle, obwohl sie in der Lage sind, menschliches Verhalten zu simulieren, immer noch anfällig für ähnliche Verzerrungen wie Menschen sind. Dies unterstreicht die Notwendigkeit, die kognitive Architektur von LLMs weiter zu verstehen und zu verbessern, um ihre Anwendung in kritischen und evaluativen Kontexten zu optimieren.

Fachanwalt für IT-Recht Jens Ferner