Wissenschaftliche Studien

Warum Einzelstudien nicht aussagekräftig sind

Viele Studienergebnisse lassen sich nicht wiederholen. Warum das ein ernstes Problem für die Wissenschaft ist. Und welche Relevanz es im Alltag hat.

Drucken

Schriftgröße

Gestatten Sie, dass wir uns heute mit einem etwas kompliziert klingenden Begriff befassen. Aber es lohnt sich, etwas Geduld zu investieren, versprochen. Der sperrig und recht abstrakt wirkende Begriff heißt „Replikationskrise“. Er beschäftigt die Welt der Forschung seit geraumer Zeit und gewährt außerdem einige erhellende Einblicke in den Maschinenraum des Wissenschaftsbetriebes.

Wer erfahren hat, was damit gemeint ist, kann viele Aussagen und Ankündigungen besser beurteilen, die uns fast täglich im Zusammenhang mit Wissenschaft begegnen: warum es, beispielsweise, nicht viel zu bedeuten hat, wenn jemand mit einer angeblich phänomenalen Studie wedelt und behauptet, eine knifflige Frage letztgültig gelöst oder die Kollegenschaft triumphal widerlegt zu haben (was während der Covid-Pandemie ständig geschah und für Verwirrung und hitzige Debatten sorgte); oder weshalb grundsätzlich Vorsicht geboten ist, wenn es wieder heißt: „Wissenschaftler haben erstmals bewiesen, dass…“

Einzelne Studien sind bedeutungslos

Denn: Eine einzelne Studie sagt gar nichts, sondern liefert bestenfalls Indizien für neu erworbenes Wissen, das durch weitere Arbeiten erhärtet und abgesichert werden muss. Und das leitet nahtlos zum Thema Replikationskrise über.

Der Begriff benennt das verbreitete Problem, dass es oft nicht gelingt, bestimmte Forschungsergebnisse in Folgestudien zu wiederholen und dadurch zu bestätigen. Vor genau 20 Jahren wies der amerikanische Epidemiologe John Ioannidis sehr provokant darauf hin, dass zahlreiche publizierte Studien schlicht falsch seien. Ein paar Jahre später wurde die Psychologie breitflächig von der Replikationskrise ereilt. Scheinbar spektakuläre Erkenntnisse über das menschliche Verhalten, unsere Neigungen und geheimen emotionalen Beweggründe standen plötzlich infrage, denn die vermeintlich bahnbrechenden Resultate wollen sich in späteren, von anderen Forschenden durchgeführten Studien partout nicht einstellen.

Hellhörig geworden durch diese Beobachtung, testeten Psychologen 2018 die Kollegenschaft. Rund 30 Forschungsgruppen sollten anhand derselben Daten dieselbe Frage beantworten: Neigen Schiedsrichter dazu, Fußballspielern mit schwarzer Hautfarbe eher die rote Karte zu zeigen? Man möchte erwarten, dass alle Gruppen auf Basis derselben Datensets dieselben Schlüsse zogen. Doch das war nicht der Fall: Die Antworten auf die Frage fielen teils sehr unterschiedlich aus.

Die Pleite der Ökologie

Über ein ähnliches Experiment berichtete soeben das Fachmagazin „Spektrum der Wissenschaft“. In diesem Fall betraf es die Ökologie. 250 Ökologinnen und Ökologen aus aller Welt sollten sich zwei Fragen widmen: Hängt das Wachstum von Blaumeisen von der Zahl der Geschwister ab? Und bei welcher Bodenbedeckung gedeiht Eukalyptus am besten?

Neuerlich zeigte sich: identische Fragen, haargleiche Daten zur Aus- und Bewertung, jedoch teils völlig verschiedene Ergebnisse. Somit sei nun auch die Ökologie von der Krise der Reproduzierbarkeit erfasst, urteilte „Spektrum“.

Wiederholbarkeit ist eines der wichtigsten Qualitätsmerkmale von Wissenschaft. Eine einzelne Studie hat noch keine große Bedeutung, weil zahlreiche Faktoren zu falschen oder verzerrten Resultaten führen können: Bei Experimenten können sich Fehler einschleichen, die Datenbasis kann zu klein oder lückenhaft sein, die Statistik bei der Auswertung kann einem einen Streich spielen, und manchmal suggeriert purer Zufall ursächliche Zusammenhänge, die in Wahrheit gar nicht existieren.

Deshalb ist es heute eine akzeptierte Übereinkunft, dass Forschungsresultate erst dann als belastbar und verlässlich gelten, wenn andere, von den Autoren der Erststudie unabhängige Kollegen mit denselben oder auch anderen Methoden zu den nämlichen oder zumindest sehr ähnlichen Ergebnissen gelangen – sie eine bestimmte Studie also replizieren können.

Wie schlimm ist es nun, dass dies in vielen Disziplinen augenscheinlich nur sehr unzulänglich gelingt?

Früher war es kaum ein Thema

Zunächst muss man sagen: Es ist ein gutes Zeichen, dass das Problem überhaupt erkannt wird, was wiederum daran liegt, dass heute höhere Standards wie eben die Forderung nach Replizierbarkeit gelten. Vor ein paar Jahrzehnten produzierten Studien gewiss auch genügend windschiefe Ergebnisse, was aber vermutlich oft gar nicht auffiel. Eine Vielzahl von heute gebräuchlichen Medikamenten beruht auf Studien, deren Methodik längst keine Qualitätskontrolle mehr bestehen würden.

Gleichzeitig ist es natürlich beunruhigend, wenn man sich auf die Kernaussagen einer großen Zahl wissenschaftlicher Arbeiten offenbar nicht verlassen kann. Die Gründe sind vielfältig: Zeit- und Publikationsdruck zählen ebenso dazu wie die Auswahl als relevant eingestufter Daten, die statistischen Methoden, schnöde Fehler und mitunter auch Wunschdenken. Wie alle Menschen hoffen auch Forschende, ihre Arbeit möge schöne Früchte tragen, und bevorzugen daher, bewusst oder unbewusst, Resultate, die ihre Annahmen und Idealvorstellungen stützen.

Und da reden wir noch nicht von den zumindest fallweise vorkommenden Tricksereien, um Studienergebnisse hochzujazzen. Berüchtigt etwa das sogenannte p-Hacking. Sehr simpel ausgedrückt, malträtiert man dabei Daten so lange mit statistischen Modellen, bis das Ergebnis zur Ausgangshypothese passt. Der p-Wert indes berücksichtigt, dass (scheinbar) gemessene Effekte auch blanker Zufall sein könnten.

Das Problem spektakulärer Ergebnisse

Was tun gegen derlei Missbrauch und gegen fragwürdige Studienergebnisse generell? Im Moment werden innerhalb der Wissenschaft verschiedene Schutzmechanismen diskutiert – von der kompletten Offenlegung der verwendeten statistischen Modelle bis zur Vorabveröffentlichung der Studienziele und -methoden, damit nicht nachträglich nur genehme Resultate Eingang in Publikationen finden. Zu Debatte steht – freilich schon länger – auch das gesamte traditionelle Publkationswesen, das Forschende dann belohnt, wenn sie in möglichst großer Zahl möglichst spektakuläre Ergebnisse erzielen.

Was auch immer die Vorstöße letztlich bringen: Zumindest wird das Problem inzwischen regelmäßig thematisiert, und eigene Plattformen wie Retractionwatch widmen speziell dem Aufzeigen von wissenschaftlichen Fehlentwicklungen.

Menschen abseits der Wissenschaft dürfen aus der Replikationskrise die Lehre ziehen, dass immer dann Skepsis angebracht ist, wenn vermittels einzelner Studien behauptet wird, soeben sei unser Weltbild revolutioniert oder die Expertise der übrigen Fachwelt widerlegt worden.

Alwin Schönberger

Alwin Schönberger

Ressortleitung Wissenschaft