Wie geht man mit schlechten Datengrundlagen um?

Susanne Singer
26. Apr. 2022
3 Min. Lesezeit

Aktualisiert: 26. Mai 2022

Ja, das ist wirklich keine leichte Aufgabe. Es ist aber zugleich das täglich Brot von uns Epidemiolog*innen, uns damit zu beschäftigen. Das heißt, wir prüfen die Qualität von Daten und entwickeln Methoden, damit diese möglichst hoch sein kann.

Zunächst einmal: Was heißt denn eigentlich „schlechte Daten“?

Schlechte Daten sind solche, die zu fehlerhaften Annahmen über die Realität führen. Wir sprechen deshalb in der Epidemiologie von „Fehlern“ in Studien oder in Daten.

Es gibt zwei große Gruppen von Fehlern: zufällige Fehler und systematische Fehler. Ja, und was heißt das nun schon wieder?

Mit dem Begriff „zufällige Fehler“ oder „Zufallsfehler“ bezeichnen wir alle Probleme, die dadurch entstehen, dass im Leben die meisten Dinge nicht maschinenmäßig genau entstehen oder sich entwickeln, sondern gewissen Schwankungen unterliegen. Das ist für sich genommen nicht falsch oder schlecht, so ist einfach die Natur. Nehmen wir ein Beispiel: Angenommen, Sie wollen herausfinden, ob Frauen und Männer unterschiedlich groß sind. Dafür gehen Sie – beispielsweise – in die nächstbeste Arztpraxis und messen von den an diesem Tag dorthin kommenden Personen die Körpergröße. Danach berechnen Sie den Durchschnitt für alle Frauen und den für alle Männer. Und dann können Sie die Differenz zwischen den beiden Durchschnittswerten anschauen. Wahrscheinlich finden Sie dabei heraus, dass Frauen im Durchschnitt kleiner sind als Männer. Trotzdem wird es einzelne Frauen geben, die größer sind als einzelne Männer – das ist eben dem Zufallsfehler geschuldet, also den natürlichen Schwankungen (damit ist nicht gesagt, dass es ein „Fehler“ ist, wenn eine Frau groß oder ein Mann klein ist. Das ist nur ein Fachbegriff, um diese Schwankungen um den Mittelwert herum zu bezeichnen). Damit dieser Fehler keine zu große Rolle spielt in Studienergebnissen, muss man viele Personen untersuchen. Je größer die sogenannte „Stichprobengröße“, desto kleiner ist der Zufallsfehler.

Aber auch Studien mit Tausenden und Millionen von Menschen können Fehler haben, nämlich systematische Fehler. Dabei gibt es wiederum zwei große Fehlergruppen: „Bias“ und „Konfundierung“ (Englisch: Confounding). Ein Bias liegt dann vor, wenn die Daten, die ich erhoben habe, die Wirklichkeit nicht korrekt wiedergeben und dies meine Ergebnisse verzerrt. Nehmen wir das Beispiel von eben: Angenommen, Sie haben eine Sportarztpraxis herausgesucht und die Ärztin dieser Praxis betreut die Basketballmannschaft der Frauen vor Ort. Dann sind die Frauen, die Sie in Ihre Studie einschließen, wahrscheinlich größer als andere Frauen – und vielleicht sogar größer als die Männer in dieser Praxis. Damit würden Sie zu einem anderen Ergebnis kommen als im ersten Szenario, aber nicht, weil Frauen in Wahrheit so groß sind, sondern nur, weil die Frauen in Ihrer Studie die Frauen aus der Allgemeinbevölkerung nicht gut repräsentieren, sich also von ihnen deutlich unterscheiden (dies wäre dann ein Selektionsbias).

Konfundierung hingegen bedeutet, dass eine dritte Variable einen Zusammenhang zwischen zwei Variablen fälschlicherweise herstellt, der aber in Wirklichkeit gar nicht besteht. Ein Beispiel: Sie werden feststellen, dass Krebserkrankungen häufiger auftreten bei Menschen, die graue Haare haben. Führt also die Haarfarbe dazu, dass man Krebs bekommt? Natürlich nicht! Es ist einfach das Alter, das hier hineinfunkt. Ältere Menschen bekommen häufiger Krebs und ältere Menschen haben auch häufiger graue Haare als jüngere. Deshalb haben Grauhaarige auch öfter Krebs, aber eben völlig ohne ursächlichen Zusammenhang.

In epidemiologischen Studien wird deshalb immer darauf geachtet, diese drei Fehler – also Zufall, Bias und Konfundierung – möglichst klein zu halten.

Das gelingt nie vollständig, aber man kann es zumindest so gut wie möglich probieren. Und man muss immer angeben, wie stark die Ergebnisse von diesen Fehlern beeinflusst sein könnten.

Und wie kann man das konkret tun? Man muss seine Datengrundlage genau angeben. In unserem Beispiel müsste die Herkunft der eingeschlossenen Teilnehmer (also die Sportarztpraxis) angegeben werden – und im besten Falle auch, dass sich hier alle Teilnehmerinnen der Studie in einer Basketballmannschaft befinden. So wäre es für jeden, der die Studie im Anschluss liest, ersichtlich, dass Aussagen der Studie über die Körpergröße nicht auf die Allgemeinbevölkerung übertragbar sind.

Außerdem wird berichtet, wie hoch der Rücklauf war (also wie viele Personen wurden angesprochen und wie viele haben letztlich teilgenommen) und ob sich die Nicht-Teilnehmer (=Non-Responders, siehe dazu Beitrag: "Ist es ethisch korrekt, für die Teilnahme an Studien Geld zu erhalten?") von den Teilnehmern unterscheiden. Es geht aber nicht nur um Vollständigkeit und Repräsentativität der Daten, sondern auch um die Messgenauigkeit, Treffsicherheit, und letztlich auch um die Tiefe, mit der ein Problem erfasst wird. Jede seriöse epidemiologische Veröffentlichung beinhaltet deshalb einen Teil, in dem über die Limitationen der Studie gesprochen wird – also die Begrenztheit der Aussagekraft. Ehrlichkeit und Transparenz ist da das A & O.

Man muss aber auch Studien so planen, dass sie gut genug sein können, um die Frage zu beantworten, die man sich gestellt hat. Damit kommen wir zum zweiten Teil der Frage, die da in Klammern steht, also wie ist das bei Krankenkassendaten? Hierbei wurde ja keine Studie geplant, sondern die Daten wurden aus anderen Gründen erhoben und gespeichert. Trotzdem kann man diese Daten auch sinnvoll auswerten (siehe unsere Antwort zur Frage nach Sekundärdaten)

Folge uns doch auf Instagram oder Twitter

Wie geht man mit schlechten Datengrundlagen um?

Aktuelle Beiträge

Comments