KI und Forschung: Wer schreibt, wer liest, wer bewertet?

Michael Scharkow, Johannes Gutenberg-Universität Mainz
Aktuelle KI-Assistenten sind Text- und Bildgeneratoren ohne echte Intelligenz oder Logikfähigkeiten. Die Nutzung dieser Stochastic Parrots ist in vielen Forschungsbereichen schon jetzt eher Regel als Ausnahme. Deshalb sollten wir fragen, welcher KI-Einsatz sinnvoll ist und was dies für den Forschungsalltag bedeutet – hier verdeutlicht an drei Einsatzfeldern.
Für Forschungsüberblicke stehen schon länger KI-Tools zur Verfügung und erbringen vielfach nutzbare Ergebnisse. In zwei Jahren wird dies zumindest befriedigend vollautomatisiert werden können. Als Folge wird jedoch die Literaturschau weniger Gewicht in der Begutachtung erhalten. Hingegen wird es stärker darauf ankommen, aus den Überblicken wirklich neue Ideen zu entwickeln. Dies leisten transformerbasierte KI-Tools nicht, da sie nicht über ihre Trainingsdaten hinaus generalisieren können.
Bei der Datenerhebung lassen sich viele Aktivitäten sehr gut KI-gestützt automatisieren: von der Transkription über Inhaltsanalysen bis hin zur Erstellung von Items und Stimuli. Aber zumindest in den nächsten Jahren können viele Schritte der Kommunikationsforschung sicher nicht der KI überlassen werden, so lange technische, ethische und rechtliche Probleme verhindern, dass man KI-Assistenten Interviews führen, Inhaltsstichproben designen oder Laborexperimente mit Menschen steuern lässt.
Die dramatischsten Folgen der KI-Nutzung sind im Bereich der Forschungsevaluation zu erwarten: Bislang ist die Qualität wissenschaftlicher Texte ein zentrales Kriterium für die Bewertung von Anträgen, Publikationen oder Berichten. KI-Assistenten können jedoch schon jetzt passgenau jede Menge überzeugend (und überzeugt) klingender Antrags- oder Artikelprosa generieren. Die KI-gestützte Textproduktion wird zu einer Homogenisierung wissenschaftlicher Texte führen. Dies kann man als Abbau von Ungleichheiten begrüßen, etwa im Hinblick auf Fremd- vs. Muttersprachler:innen oder Autor:innen mit und ohne editorische Ressourcen. Aber den Gutachter:innen wird damit eine bewährte Bewertungsheuristik genommen; sie müssen nun noch stärker auf die Qualität der Argumente, innovative Ideen und sinnvolle Forschungsdesigns achten, und dies bei einer Flut von Publikationen und Anträgen. Es liegt nahe, deshalb auch bei der Evaluation von Forschung auf KI-Assistenten zu setzen, die Texte zusammenfassen, ordnen, bewerten können. Aber Erfahrungen, etwa im Bewerbermanagement, zeigen, dass der Nutzen gegenwärtiger KI-Tools kaum über ein grobes Screening hinausgeht. Zudem werden dabei soziale Ungleichheiten reproduziert. Und für die Begutachtung besonders pikant: KI-Tools präferieren KI-generierte Texte gegenüber denen menschlicher Autor: innen (Laurito et al., 2025).
Bevor wir uns in der Hoffnung auf Effizienzgewinne unkritisch der KI-Assistenten bedienen und bewährte Arbeitsprozesse auf die Eigenheiten dieser Tools ausrichten, sollten gerade wir empirisch untersuchen, ob diese wirklich zu besserer (und nicht nur billigerer) Forschung und Forschungsevaluation führen. Denn wenn wir uns zukünftig in der Bewertung von Forschungsqualität naiv auf KI-Assistenten stützen, also letztlich nur noch KI-Tools den Output anderer KI-Tools bewerten lassen, können wir auch gleich alle Manuskripte publizieren, die minimale Standards erfüllen, Auszeichnungen nach h-Index oder Fördermittel per Lotterie vergeben – und damit wenigstens eine Menge CO2 sparen.
Referenzen:
Laurito, W., Davis, B., Grietzer, P., Gavenčiak, T., Böhm, A., & Kulveit, J. (2025). AI–AI bias: Large language models favor communications generated by large language models. Proceedings of the National Academy of Sciences, 122(31), e2415697122..

