Empirische Studie über ChatGPT-Antworten auf Stack Overflow Fragen

In einer durchgeführten Studie werden die Merkmale von ChatGPT-Antworten auf Programmierfragen auf Stack Overflow untersucht. Die Studie beleuchtet die Richtigkeit, Konsistenz, Umfassendheit und Knappheit der Antworten und bietet Einblicke in die linguistischen Merkmale und menschlichen Wahrnehmungen dieser automatisierten Antworten im Vergleich zu menschlichen Antworten.

Kernergebnisse der Studie

Die Analyse von 517 Programmierfragen zeigte, dass 52% der ChatGPT-Antworten inkorrekte Informationen enthalten und 77% als ausschweifend eingestuft werden. Dennoch bevorzugten die Studienteilnehmer in 35% der Fälle die Antworten von ChatGPT, was auf deren Umfassendheit und den gut artikulierten Sprachstil zurückzuführen ist.

Trotz der Präferenz wurde die Fehlinformation in den ChatGPT-Antworten 39% der Zeit übersehen, was auf die Notwendigkeit hinweist, gegen Fehlinformationen in solchen Antworten vorzugehen und das Bewusstsein für die damit verbundenen Risiken zu schärfen.

Methodik

Die Forschenden führten eine Kombination aus manueller Analyse, linguistischer Analyse und Nutzerstudien durch, um die Antworten von ChatGPT mit den akzeptierten menschlichen Antworten auf Stack Overflow zu vergleichen. Die Ergebnisse zeigen, dass ChatGPT oft formaler und analytischer antwortet und weniger negative Gefühle vermittelt. Diese sprachlichen Eigenschaften können dazu führen, dass Nutzer die Antworten von ChatGPT trotz ihrer Unkorrektheiten bevorzugen.

Implikationen und Empfehlungen

Die Studie weist auf mehrere Herausforderungen und Risiken hin, die mit der Verwendung von ChatGPT für die Programmierung verbunden sind. Es wird eine umfassende Diskussion über die Gestaltungsmöglichkeiten geführt, wobei die Risiken von Fehlinformationen hervorgehoben und zukünftige Richtungen zur Erkennung und Minderung von Fehlinformationen in KI-unterstützten Programmierumgebungen umrissen werden.

Fazit

Die Studie unterstreicht die Notwendigkeit einer kritischen Betrachtung von automatisierten KI-Antworten in technischen Foren. Obwohl ChatGPT in vielen Fällen beeindruckend performt, zeigt die Untersuchung, dass es häufig Fehler macht und seine Antworten unnötig in die Länge zieht. Dies ruft nach innovativen Lösungen, um die Zuverlässigkeit von KI-gestützten Programmierhilfen zu verbessern und gleichzeitig die Nutzungserfahrung zu optimieren.

Fachanwalt für IT-Recht Jens Ferner