[Base] [Index]

Statistischer Nachweis von kausalen Beziehungen

Grundbegriffe

Hier eine kurze und oberflächliche Einführung in einige statistische Begriffe, die es Laien ermöglichen soll, dem Fachjargon von statistischen Untersuchungen und deren Kritiken folgen und Tabelleneinträge verstehen zu können.

Ich denke, auch für Laien ist es möglich, einige der grundlegenden Probleme zu verstehen, die zum schlechten Ansehen der Statistik im Alltag ("Steigerungsformen der Lüge: Lüge, Betrug, Statistik", oder "Ich glaube nur Statistiken, die ich selbst gefälscht habe.") führen.

Und ich glaube auch, daß oft nur ein wenig gesunder Menschenverstand ausreicht, um einige grundlegende Fehler in manchen statistischen Untersuchungen zu erkennen und sich selbst ein Urteil zu bilden.

Inkorrekte statistische Resultate sind nämlich meist nicht so sehr auf bewußte Fälschungen oder Mauscheleien zurückzuführen, die man kaum selbst nachweisen kann, oder auf mathematische Feinheiten, die nur ein Spezialist verstehen kann, sondern eher auf die Nichtberücksichtigung von Abhängigkeiten, die man auch als Laie erkennen kann. Ich hoffe, daß das hier vorgestellte "Kochrezept" dabei hilft.

Korrellation

Die Grundidee statistischer Untersuchungen ist die Korrelation. Um einen Zusammenhang zwischen A (z.B. sexuelle Kindheitserlebnisse) und B (z.B. Schäden) zu finden, untersucht man eine möglichst große Anzahl von Fällen.

Man stellt fest, in wieviel Fällen A, in wieviel B, und in wieviel beides zutrifft. Gibt es keinen Zusammenhang zwischen A und B, dann sollte man annehmen, daß das Verhältnis "Fälle mit A" / "Fälle ohne A" nicht davon abhängt, ob B zutrifft:

"Fälle mit  A"     "Fälle mit  A ohne B"     "Fälle mit  A mit B"
--------------  =  ---------------------  =  --------------------
"Fälle ohne A"     "Fälle ohne A ohne B"     "Fälle ohne A mit B"

Ist dies nicht der Fall, spricht man von einer Korrellation. Sie wird durch einen Korrellationskoeffizienten beschrieben, oft mit C, Cc oder K bezeichnet. Dieser kann positiv (A korrelliert mit B) oder negativ (A korrelliert negativ mit B) sein. Er liegt zwischen 1 und -1.

Normalerweise liegen die Werte irgendwo dazwischen.

Anzahl der untersuchten Fälle

Die Anzahl der untersuchten Fälle ist natürlich wichtig. Sie wird üblicherweise mit N bezeichnet. Ein Eintrag "N=100" über irgendeiner Tabelle sagt somit, daß insgesamt 100 Fälle untersucht wurden.

Die Bedeutung von N wird von Laien allerdings oft überschätzt. Auch (oft gerade) Untersuchungen mit hohem N gehen oft daneben, weil sie naturgemäß weniger detaillierte Informationen enthalten und daher für andere, systematische Fehler viel anfälliger sind. Die Genauigkeit der Untersuchung wird durch die Signifikanz auch besser charakterisiert.

Der Vorteil von N ist lediglich, daß diese Zahl immer angegeben wird und deshalb für Vergleiche verschiedener Untersuchungen bequem ist.

Signifikanz

Eine hohe Korrellation alleine besagt erst einmal noch gar nichts. Sie kann z.B. rein zufällig entstehen. Nach dem Gesetz der großen Zahl hängt dies sicherlich von N ab. Die genaue Formel für diesen Zusammenhang braucht man nicht zu kennen, weil normalerweise der Autor der Untersuchung einen Wert angibt, in dem dies berücksichtigt wird. Dieser Wert p ist immer kleiner als 1, und je kleiner er ist, desto besser.

Ist er größer als 0.1, meistens schon bei 0.05, so sagt man, daß das die Korrellation "statistisch nicht signifikant" ist. Liest man die Definition von p (als die "Wahrscheinlichkeit, daß die gefundene Korrelation rein zufällig ist"), scheint dem Laien diese Forderung zu scharf zu sein. Eine Beziehung, die "mit 89% Wahrscheinlichkeit nicht zufällig" ist, soll "nicht signifikant" sein? Hinter dieser "89%" stehen allerdings einige mathematische Annahmen, die in der Praxis kaum zutreffen. Die praktische Erfahrung zeigt, daß man solche statistisch nicht signifikanten Ergebnisse meistens einfach vergessen kann.

Repäsentativität der Auswahl

Hat man ein statistisch signifikantes Resultat, beginnen die eigentlichen Probleme. Eine der ersten Fragen ist, inwieweit die untersuchten Fälle für die uns interessierende Gruppe wirklich repräsentativ sind.

Das Ideal einer zufälligen Auswahl ist kaum erreichbar, selbst wenn die "interessierende Gruppe" einfach herauszubekommen ist. Stellt man sich irgendwo hin und befragt Passanten, dann wird man (je nach Ort) überproportional viele Stadt- oder Landbewohner befragen, die Relation zwischen Männern und Frauen, Jugendlichen und Rentnern, Arbeitenden, Arbeitslosen und Touristen wird je nach Tageszeit verschieden sein.

Die Probleme potenzieren sich jedoch, wenn man nicht so leicht feststellen kann, ob eine Person nun dazugehört oder nicht. Insbesondere wenn das zu untersuchende Verhalten illegal ist oder weithin moralisch verurteilt wird, ist es nicht leicht, dies herauszubekommen.

Bei Untersuchungen von pädosexuellen Verhältnissen ist dies eines der Hauptprobleme.

Versteckte Abhängigkeiten

Selbst ein wirklich repräsentatives Sample hilft jedoch nicht viel. Was wir nämlich eigentlich wissen wollen, ist ja, ob es einen ursächlichen Zusammenhang zwischen A und B gibt. Aber auch wenn wir einen noch so eindeutigen statistischen Zusammenhang finden, beweist dies noch lange nicht einen solchen Zusammenhang.

Der Grund ist, daß es vielleicht einen ganz anderen, versteckten Grund gibt, nennen wir ihn C, der sowohl mit A als auch mit B zusammenhängt.

Dies sei an folgendem Beispiel demonstriert: Untersucht man, ob es einen statistischen Zusammenhang zwischen der Anzahl der Störche in einem Dorf und der Anzahl der neugeborenen Kinder gibt, indem man Daten aus verschiedenen Dörfern zu verschiedenen Zeiten sammelt und auswertet, wird man wahrscheinlich - statistisch korrekt und signifikant - einen Zusammenhang feststellen können. Daraus könnte man schlußfolgern, man hätte statistisch nachgewiesen, daß die Störche Kinder bringen.

Dies ist natürlich Quatsch, und der Grund für den statistischen Zusammenhang ist einfach erklärt - im Laufe der Zeit nahm sowohl die Anzahl der Störche als auch die der neugeborenen Kinder ab - aus völlig unterschiedlichen Gründen, die nichts miteinander zu tun haben. Die "versteckte Variable" C ist hier die Zeit.

Ob es solche versteckten Gründe gibt, kann man den Zahlen der Untersuchung nicht ablesen. Dies kann nur eine unabhängige Betrachtung leisten, bei der mögliche kausale Beziehungen untersucht werden.

Es gibt allerdings einige Grundregeln. Die erste ist die, daß man bei der Untersuchung von Menschen einige Variablen immer als "kritisch" betrachten sollte, weil es kaum menschliches Verhalten gibt, das dadurch nicht beeinflußt wird oder zumindest werden könnte. Dies sind Geschlecht, Alter, Wohnort, Nationalität, soziale Lage.

Danach muß man - aufgrund theoretischer Überlegungen oder aufgrund anderer bereits vorhandener statistischer Resultate - weitere "verdächtige" Variablen finden. Für sexuelle Kontakte von Kindern zu Erwachsenen sind die Frage nach der Freiwilligkeit des Kontakts und die nach dem Elternhaus (zerrüttet oder nicht) sicherlich hoch verdächtig und sollten sicherlich betrachtet werden.

Kontrolle von anderen Variablen

Bei all den aufgezählten Problemen kann man leicht den Eindruck gewinnen, daß es sowieso kaum möglich ist, statistisch irgendetwas nachzuweisen. Das ist nicht so. Hochrechnungen bei Wahlen aufgrund statistischer Befragungen einer relativ kleinen Zahl von Wählern liefern oft erstaunlich genaue Ergebnisse, wovon man sich bei jeder Wahl überzeugen kann.

Wie schafft man das trotz der obengenannten Probleme? Der wesentliche Trick ist, die "verdächtigen Variablen" zu kontrollieren.

Grob gesagt geht etwa so: Man versucht, alle Größen, die das Ergebnis irgendwie beeinflussen können, herauszufinden. Dann unterteilt man das Ganze in Gruppen, die gleiche Werte der "verdächtigen Variablen" haben. Dann kann man die statistische Untersuchung für jede Untergruppe einzeln durchführen und muß danach die Einzelergebnisse wieder zusammenfassen.

Wie dies genau zu machen ist, kann man in Statistikbüchern nachlesen. Dies soll hier auch nicht interessieren. Die Details dieser Prozedur werden in den Artikeln meist auch nicht angegeben. Wird so etwas gemacht, dann wird es vom Autor jedoch meistens erwähnt, in Worten wie "die Korrellation bleibt auch nach der Berücksichtigung von ... bestehen." Als Laie kann man sicherlich nicht kontrollieren, ob die entsprechenden mathematischen Verfahren richtig angewendet wurden. Dies müssen wir den Autoren deshalb einfach erstmal glauben (genauso wie wir ihnen glauben müssen, daß sie richtig zählen können und die Ergebnisse nicht bewußt fälschen).

Wichtig ist, daß diese Prozedur nur dann stattfinden kann, wenn die fraglichen Variablen für jeden Einzelfall auch bekannt sind, d.h. bei der Untersuchung auch abgefragt wurden. Was nicht abgefragt wurde, kann nicht kontrolliert werden.

Daher kann auch ein Laie oft leicht erkennen, daß eine statistische Untersuchung nichts taugt. Wenn bei der Untersuchung gewisse Sachen, die einen Einfluß auf das Ergebnis haben könnten, gar nicht abgefragt wurden, ist dies anzunehmen. Die Frage, ob und welche Variablen einen Einfluß haben können, kann oft auch ein Nichtstatistiker entscheiden.

So ist es z.B. ziemlich egal, ob man Sex mit dem Einverständnis des Kindes für gut oder schlecht hält, unabhängig davon ist es zu erwarten oder zumindest nicht a priori auszuschließen, daß ein solches Einverständnis einen Einfluß auf die Folgen hat. Allein dies reicht schon aus, eine Untersuchung, die dies gar nicht abfragt, als unseriös einzustufen.

Die "Kontrolle von Variablen" kann auch bei Problemen mit nichtrepräsentativen Samples abhelfen. Fragt man die wichtigen Variablen ab, und hat man gute Informationen über die wirkliche Verteilung dieser Variablen, kann man entsprechend umrechnen.

Kontrollgruppen

Eine Kontrollgruppe ist eine Variante, solche Variablen auch ohne große mathematische Umrechnungen zu kontrollieren. Man untersucht zwei Gruppen, die sich in der "interessanten" Eigenschaft unterscheiden, aber in anderen möglicherweise wichtigen Variablen nicht. Dies kann man getrennt kontrollieren. Ist dies der Fall, dann braucht man sich um diese Variablen im weiteren nicht mehr zu kümmern.

Bei der Beurteilung der Untersuchung ist wiederum der gesunde Menschenverstand gefragt. Die Frage ist auch hier, welche Variablen einen Einfluß auf das Ergebnis haben können, und ob zu erwarten ist, daß diese in beiden Gruppen etwa gleich wahrscheinlich sind.

Ein typisches Beispiel für eine schlechte Auswahl der Kontrollgruppe wäre ein Vergleich von verurteilten Straftätern mit Polizisten. Hier erkennt man auch mit unbewaffnetem Auge, daß die soziale Lage in der Kontrollgruppe ganz anders aussehen wird als bei den Straftätern. Und die soziale Lage ist eine der Variablen, die (wie auch Alter, Geschlecht, Wohnort und Nationalität) auf ziemlich alles einen Einfluß haben kann und deshalb eigentlich immer kontrolliert werden sollte.

Abschätzungen

Oft kann man unzureichenden Untersuchungen trotzdem noch wertvolle Informationen abgewinnen. Z.B. indem man die Richtung des Fehlers in einer Untersuchung aufgrund anderer Betrachtungen oder Untersuchungen abschätzen kann. Dies erlaubt oft, der Untersuchung wenigstens eine Abschätzung in einer Richtung zu entnehmen.

Beispielsweise kann man aus einer Untersuchung, bei der Folgen sexueller Erlebnisse mit Erwachsenen ohne Kontrolle der Frage "Freiwilligkeit oder Gewalt" untersucht werden, und der zusätzlichen Annahme, Gewaltkontakte seien schädlicher als freiwillige, zwei Abschätzungen entnehmen:

als in der Untersuchung herausgefunden wurde.

Zusammenfassung

Was kann man also als Laie nachprüfen, wenn man eine statistische Untersuchung vor sich hat, die behauptet, einen Zusammenhang zwischen A und B gefunden zu haben? Man nehme folgendes Kochrezept:

Bei der Untersuchung pädosexueller Beziehungen und ihrer Auswirkungen ist die Lage leider so, daß selbst der laienhafte Blick nach diesem Kochrezept in vielen, wenn nicht den meisten, Untersuchungen schwere Mängel finden kann.