KI in der wissenschaftlichen Schreibarbeit – GPT-4 gleichauf mit menschlichen Forschern

Es lässt sich nicht wegreden, dass der einleitende Text vor wissenschaftlichen Arbeiten eine entscheidende Rolle spielt: Hier werden Rahmen, identifizieren Forschungslücken und Ziele der Studie definiert.

Die Studie „ChatGPT-4 and Human Researchers Are Equal in Writing Scientific Introduction Sections: A Blinded, Randomized, Non-inferiority Controlled Study“ liefert nun hierzu spannende und zum Denken anregende Erkenntnisse über die Fähigkeiten von KI-Systemen; speziell zu Texten des Generative Pre-trained Transformer 4 (GPT-4), im Vergleich zu menschlichen Forschern beim Verfassen dieser bedeutsamen Abschnitte in Forschungsarbeiten.

Diese Untersuchung bietet einen – durchaus überraschenden und aufschlussreichen – Einblick in die Möglichkeiten und Herausforderungen beim Einsatz von KI in der akademischen Schreibarbeit; sie unterstreicht dabei das Potenzial von KI, den Forschungsprozess grundlegend zu transformieren.

Hintergrund und Methodik der Studie

Kurz dazu: Die Forschungsgruppe untersuchte in einer doppelt-verblindeten, randomisierten Nichtunterlegenheitsstudie, ob GPT-4 in der Lage ist, Einführungsabschnitte zu schreiben, die in Qualität und Lesbarkeit mit von Menschen verfassten Texten vergleichbar sind. Dazu wurden 18 von GPT-4 erstellte Einleitungen mit 18 menschlich verfassten Einleitungen, die bereits in einem medizinischen Journal veröffentlicht wurden, verglichen. Bewertet wurden diese von acht verblindeten Gutachtern mithilfe von Likert-Skalen von 1 bis 10 hinsichtlich Publizierbarkeit, Lesbarkeit und inhaltlicher Qualität.

Ergebnisse und Erkenntnisse in Kürze

Interessanterweise zeigten die Ergebnisse keine signifikanten Unterschiede zwischen den von GPT-4 und den von Menschen geschriebenen Einleitungen in Bezug auf die Publizierbarkeit und die inhaltliche Qualität. GPT-4 schnitt sogar in Bezug auf die Lesbarkeit etwas besser ab, obwohl dieser Unterschied als nicht relevant angesehen wurde.

Diskussion

Die Studie legt in Ihrer Zusammenfassung nahe, dass GPT-4 ein nützliches Werkzeug für das Verfassen wissenschaftlicher Einleitungsabschnitte sein könnte. Diese Erkenntnis ist besonders relevant in Anbetracht des ständig steigenden Drucks auf Wissenschaftler, qualitativ hochwertige Artikel zu produzieren. GPT-4 könnte also potenziell Zeit sparen und die Effizienz verbessern, indem es Entwürfe für Einleitungsabschnitte generiert, die dann von den Forschern weiter angepasst und verfeinert werden können. Doch lädt es nicht auch ein, am Ende nur noch eigene wissenschaftliche Arbeit auf dem Weg zu delegieren? Und wenn ja: Wäre das wirklich ein Problem oder ist das nur menschliche Affektion?

GPT4 und wissenschaftliches Schreiben

Fähigkeiten von GPT-4 im wissenschaftlichen Schreiben

Die Studie „ChatGPT-4 and Human Researchers Are Equal in Writing Scientific Introduction Sections“ bietet einen fokussierten Einblick in die Fähigkeit von großen Sprachmodellen, insbesondere GPT-4, zur Erstellung wissenschaftlicher Einleitungsabschnitte. Hier sind die Hauptpunkte zur Leistung von GPT-4 in dieser spezifischen Aufgabe:

  1. Vergleich von Publizierbarkeit, Lesbarkeit und inhaltlicher Qualität: GPT-4 wurde mit menschlichen Forschern verglichen, indem Einleitungsabschnitte bewertet wurden, die beide auf die gleichen wissenschaftlichen Ziele ausgerichtet waren. Die Bewertung erfolgte durch verblindete Gutachter, die verschiedene Aspekte der Texte auf einer Likert-Skala von 1 bis 10 bewerteten. Die Ergebnisse zeigten, dass es keinen signifikanten Unterschied zwischen den von GPT-4 generierten und den von Menschen geschriebenen Einleitungen hinsichtlich der Publizierbarkeit und inhaltlichen Qualität gab. GPT-4 schnitt in der Lesbarkeit leicht besser ab, obwohl dieser Unterschied als nicht relevant eingestuft wurde.
  2. Präferenz der Gutachter: Interessanterweise bevorzugte eine Mehrheit der Gutachter (59%) die von GPT-4 erstellten Einleitungen gegenüber den von Menschen verfassten. Dies deutet darauf hin, dass GPT-4 in der Lage ist, flüssige und spannend formulierte Texte zu produzieren, die den wissenschaftlichen Anforderungen entsprechen.

Ausweitung der Fähigkeiten auf andere Artikelteile?

Die Studie konzentriert sich spezifisch auf Einleitungsabschnitte und bietet (leider) keine direkten Ergebnisse oder Analysen darüber, wie gut GPT-4 oder andere große Sprachmodelle in der Lage sind, andere Abschnitte eines wissenschaftlichen Artikels zu verfassen, wie z.B. Methodik, Ergebnisse oder Diskussion.

Allerdings legt die erfolgreiche Anwendung von GPT-4 auf Einleitungsabschnitte nahe, dass weitere Forschungen in dieser Richtung vielversprechend sein könnten. Die Autoren der Studie empfehlen insoweit dann auch, die Fähigkeit von GPT-4 zur Erstellung anderer Teile wissenschaftlicher Artikel in zukünftigen Studien zu evaluieren, um das volle Potenzial von KI in der akademischen Schreibarbeit zu erkunden.


Fazit: GPT4 schreibt schon jetzt gut – auch in einem wissenschaftlichen Sinn

Die Fähigkeit von GPT-4, mit menschlichen Forschern gleichzuziehen, wäre ein bedeutender Fortschritt bei der Nutzung von KI im wissenschaftlichen Schreibprozess – gleichzeitig wirft sie meiner Meinung nach aber auch Fragen auf und kann Anlass zur Sorge geben: Wird akademische Arbeit dadurch entwertet? Brauchen wir Kontrollinstrumente – jedenfalls dürfen wir das Potenzial, das in der Kombination von KI und akademisch denkenden Menschen liegt, nicht leichtfertig aufgeben (?).

Die vorliegende Arbeit – auch wenn sie nur mit einer überschaubaren Anzahl von Dokumenten durchgeführt wurde – zeigt jedenfalls deutlich, dass KI-Tools nicht nur unterstützende Funktionen haben können, sondern auch in der Lage sind, direkt zur wissenschaftlichen Literatur beizutragen. Die hier gewonnenen Erkenntnisse untermauern daher die Möglichkeit, dass GPT-4 und ähnliche Technologien als wertvolle Werkzeuge im Forschungsprozess dienen können, insbesondere beim Verfassen wissenschaftlicher Texte. Damit könnten Forscher entlastet und der Schreibprozess effizienter gestaltet werden.

Damit stellt sich aber immer drängender die Frage: Wie definieren wir unsere (Wissens-)Arbeit in einer KI-Zukunft? Die Vorstellung, dass eine KI am Ende selbst „Ideen“ für Forschungsarbeiten hat, das Datenmaterial selbst sammelt und auswertet, um dann auch noch die (ansprechende) Arbeit dazuzuschreiben – während der Mensch nur noch das Ergebnis redigiert – halte ich für durchaus dystopisch. Vor allem im Hinblick auf die Frage, wohin eine Gesellschaft driftet, in der eine KI so umfassend „arbeitet“.

Fachanwalt für IT-Recht Jens Ferner