Vorsicht bei Studien zu großen Sprachmodellen (LLMs)

Eine frühere Studie mit dem Titel „Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process“, stellte die Leistungsfähigkeit von Transformer-Modellen bei der Lösung elementarer mathematischer Textaufgaben in den Mittelpunkt. Diese Arbeit behauptet, tiefgreifende Einsichten in die Fähigkeiten von großen Sprachmodellen (LLMs) zu liefern.

Jedoch zeigt eine kritische Analyse von Ernest Davis von der New York University, dass diese Studie ein hervorragendes Beispiel dafür ist, wie vorsichtig man bei der Bewertung und Interpretation von Forschungsergebnissen im Bereich der LLMs sein muss.

Die Bedeutung der Datenauswahl und des Trainings

Ernest Davis hebt hervor, dass die Auswahl des Datensatzes und die Art des Trainings entscheidende Faktoren für die Ergebnisse einer Studie über LLMs sind. Die von Ye et al. verwendeten synthetischen mathematischen Aufgaben unterscheiden sich signifikant von den natürlichen Aufgaben, die typischerweise in Benchmarks verwendet werden. Diese künstlichen Aufgaben sind sowohl in ihrer Struktur als auch in ihrer Komplexität weit von der Realität entfernt:

  1. Unnatürliche Aufgabenstellung: Die Aufgaben in der Studie von Ye et al. sind grammatikalisch und semantisch inkorrekt, was ihre Relevanz für die Bewertung der tatsächlichen Fähigkeiten von LLMs in der Verarbeitung natürlicher Sprache erheblich mindert. Beispiele wie „The number of each The Fresh Market’s Ice Cream equals 13 more than the difference of each Residential College District’s The Fresh Market and each Parmesan Cheese’s Grape“ sind unverständlich und tragen nicht zur realistischen Beurteilung bei.
  2. Einförmigkeit: Alle Sätze folgen einem starren, einheitlichen Muster und bieten kaum sprachliche Vielfalt. Dies steht im starken Gegensatz zu realen mathematischen Textaufgaben, die wesentlich variantenreicher und komplexer sind.
  3. Arithmetik modulo 23: Die Verwendung von Arithmetik modulo 23 in allen Berechnungen ist ein weiterer Aspekt, der die Aufgaben künstlich vereinfacht und ihre Relevanz für reale mathematische Probleme stark einschränkt.

Vergleich mit Standard-Textaufgaben

Um die Diskrepanz zu verdeutlichen, lohnt ein Blick auf die Standard-Textaufgaben des GSM8K-Datensatzes, der realistische, verständliche und vielfältige Aufgaben bietet. Diese Aufgaben erfordern nicht nur arithmetische Fähigkeiten, sondern auch ein gewisses Maß an Alltagswissen und logischem Denken. Ein Beispiel:

  • „Beth bakes 4 2-dozen batches of cookies in a week. If these cookies are shared amongst 16 people equally, how many cookies does each person consume?“

Im Vergleich dazu erscheinen die Aufgaben von Ye et al. als realitätsfern und wenig geeignet, um die tatsächlichen Fähigkeiten von LLMs zu bewerten.

Kritische Analyse der Ergebnisse

Ernest Davis zeigt, dass viele der Behauptungen von Ye et al. entweder unhaltbar oder irreführend sind:

  1. Behauptung einer hohen Diversität des Datensatzes: Diese ist eindeutig falsch. Der Datensatz ist im Vergleich zu realen Benchmarks extrem einheitlich und wenig vielfältig.
  2. Genauigkeit und Generalisierungsfähigkeit: Die behauptete 99% Genauigkeit und die angebliche Generalisierungsfähigkeit sind angesichts der begrenzten Komplexität der Aufgaben wenig beeindruckend.
  3. Generierung der kürzesten Lösungen: Dies ist die einzige korrekt formulierte und durch die Experimente gut belegte Schlussfolgerung.
  4. Vollständige Vorverarbeitung vor der Generierung: Diese Beobachtung ist eine logische Folge der Generierung der kürzesten Lösungen und daher nicht überraschend.
  5. Erlernen von Abhängigkeiten zwischen Parametern: Diese Schlussfolgerung basiert auf einer Fehlinterpretation der Trainingsaufgabe und ist daher wenig überraschend.
  6. Erklärung der Fehlerursachen: Die Autoren bieten keine fundierten Erklärungen für die Fehler, sondern beschreiben nur grob die Art der Fehler.
  7. Bedeutung der Modelltiefe: Diese Behauptung wird durch die Autoren selbst so stark relativiert, dass sie letztlich irrelevant ist.

Ein weiteres Beispiel für die Notwendigkeit kritischer Betrachtung

Diese Analyse von Ernest Davis zeigt eindrücklich, wie stark die Auswahl des Datensatzes und die Methodik des Trainings die Ergebnisse einer Studie über LLMs beeinflussen können. Es ist unerlässlich, bei der Bewertung solcher Studien stets kritisch zu hinterfragen, ob die verwendeten Daten und Methoden tatsächlich repräsentativ für die realen Anwendungen der Modelle sind.

Die Studie von Ye et al. verwendet einen Transformer, jedoch kein großes Sprachmodell im eigentlichen Sinne. Das trainierte Modell operiert in einem stark eingeschränkten und unrealistischen Rahmen, wodurch die Ergebnisse wenig über die tatsächlichen Fähigkeiten von LLMs aussagen. Eine realistischere und vielfältigere Aufgabenstellung wäre notwendig, um valide Schlussfolgerungen über die Leistungsfähigkeit großer Sprachmodelle bei der Lösung von mathematischen Textaufgaben zu ziehen.


Fazit

Die Arbeit von Ye et al. und die kritische Analyse von Ernest Davis verdeutlichen, wie wichtig eine sorgfältige Auswahl und ein realistisches Training von Datensätzen bei Studien zu großen Sprachmodellen sind. Nur so können die wahren Stärken und Schwächen dieser Modelle adäquat untersucht und verstanden werden. Als Forscher und Anwender von LLMs ist es entscheidend, stets kritisch zu hinterfragen und die Methodik und die Datengrundlage einer Studie genau zu prüfen, bevor man deren Ergebnisse akzeptiert.

Fachanwalt für IT-Recht Jens Ferner