Hier eine kurze und oberfl�chliche Einf�hrung in einige statistische Begriffe, die es Laien erm�glichen soll, dem Fachjargon von statistischen Untersuchungen und deren Kritiken folgen und Tabelleneintr�ge verstehen zu k�nnen.
Ich denke, auch f�r Laien ist es m�glich, einige der grundlegenden Probleme zu verstehen, die zum schlechten Ansehen der Statistik im Alltag ("Steigerungsformen der L�ge: L�ge, Betrug, Statistik", oder "Ich glaube nur Statistiken, die ich selbst gef�lscht habe.") f�hren.
Und ich glaube auch, da� oft nur ein wenig gesunder Menschenverstand ausreicht, um einige grundlegende Fehler in manchen statistischen Untersuchungen zu erkennen und sich selbst ein Urteil zu bilden.
Inkorrekte statistische Resultate sind n�mlich meist nicht so sehr auf bewu�te F�lschungen oder Mauscheleien zur�ckzuf�hren, die man kaum selbst nachweisen kann, oder auf mathematische Feinheiten, die nur ein Spezialist verstehen kann, sondern eher auf die Nichtber�cksichtigung von Abh�ngigkeiten, die man auch als Laie erkennen kann. Ich hoffe, da� das hier vorgestellte "Kochrezept" dabei hilft.
Die Grundidee statistischer Untersuchungen ist die Korrelation. Um einen Zusammenhang zwischen A (z.B. sexuelle Kindheitserlebnisse) und B (z.B. Sch�den) zu finden, untersucht man eine m�glichst gro�e Anzahl von F�llen.
Man stellt fest, in wieviel F�llen A, in wieviel B, und in wieviel beides zutrifft. Gibt es keinen Zusammenhang zwischen A und B, dann sollte man annehmen, da� das Verh�ltnis "F�lle mit A" / "F�lle ohne A" nicht davon abh�ngt, ob B zutrifft:
"F�lle mit A" "F�lle mit A ohne B" "F�lle mit A mit B" -------------- = --------------------- = -------------------- "F�lle ohne A" "F�lle ohne A ohne B" "F�lle ohne A mit B"
Ist dies nicht der Fall, spricht man von einer Korrellation. Sie wird durch einen Korrellationskoeffizienten beschrieben, oft mit C, Cc oder K bezeichnet. Dieser kann positiv (A korrelliert mit B) oder negativ (A korrelliert negativ mit B) sein. Er liegt zwischen 1 und -1.
Normalerweise liegen die Werte irgendwo dazwischen.
Die Anzahl der untersuchten F�lle ist nat�rlich wichtig. Sie wird �blicherweise mit N bezeichnet. Ein Eintrag "N=100" �ber irgendeiner Tabelle sagt somit, da� insgesamt 100 F�lle untersucht wurden.
Die Bedeutung von N wird von Laien allerdings oft �bersch�tzt. Auch (oft gerade) Untersuchungen mit hohem N gehen oft daneben, weil sie naturgem�� weniger detaillierte Informationen enthalten und daher f�r andere, systematische Fehler viel anf�lliger sind. Die Genauigkeit der Untersuchung wird durch die Signifikanz auch besser charakterisiert.
Der Vorteil von N ist lediglich, da� diese Zahl immer angegeben wird und deshalb f�r Vergleiche verschiedener Untersuchungen bequem ist.
Eine hohe Korrellation alleine besagt erst einmal noch gar nichts. Sie kann z.B. rein zuf�llig entstehen. Nach dem Gesetz der gro�en Zahl h�ngt dies sicherlich von N ab. Die genaue Formel f�r diesen Zusammenhang braucht man nicht zu kennen, weil normalerweise der Autor der Untersuchung einen Wert angibt, in dem dies ber�cksichtigt wird. Dieser Wert p ist immer kleiner als 1, und je kleiner er ist, desto besser.
Ist er gr��er als 0.1, meistens schon bei 0.05, so sagt man, da� das die Korrellation "statistisch nicht signifikant" ist. Liest man die Definition von p (als die "Wahrscheinlichkeit, da� die gefundene Korrelation rein zuf�llig ist"), scheint dem Laien diese Forderung zu scharf zu sein. Eine Beziehung, die "mit 89% Wahrscheinlichkeit nicht zuf�llig" ist, soll "nicht signifikant" sein? Hinter dieser "89%" stehen allerdings einige mathematische Annahmen, die in der Praxis kaum zutreffen. Die praktische Erfahrung zeigt, da� man solche statistisch nicht signifikanten Ergebnisse meistens einfach vergessen kann.
Hat man ein statistisch signifikantes Resultat, beginnen die eigentlichen Probleme. Eine der ersten Fragen ist, inwieweit die untersuchten F�lle f�r die uns interessierende Gruppe wirklich repr�sentativ sind.
Das Ideal einer zuf�lligen Auswahl ist kaum erreichbar, selbst wenn die "interessierende Gruppe" einfach herauszubekommen ist. Stellt man sich irgendwo hin und befragt Passanten, dann wird man (je nach Ort) �berproportional viele Stadt- oder Landbewohner befragen, die Relation zwischen M�nnern und Frauen, Jugendlichen und Rentnern, Arbeitenden, Arbeitslosen und Touristen wird je nach Tageszeit verschieden sein.
Die Probleme potenzieren sich jedoch, wenn man nicht so leicht feststellen kann, ob eine Person nun dazugeh�rt oder nicht. Insbesondere wenn das zu untersuchende Verhalten illegal ist oder weithin moralisch verurteilt wird, ist es nicht leicht, dies herauszubekommen.
Bei Untersuchungen von p�dosexuellen Verh�ltnissen ist dies eines der Hauptprobleme.
Selbst ein wirklich repr�sentatives Sample hilft jedoch nicht viel. Was wir n�mlich eigentlich wissen wollen, ist ja, ob es einen urs�chlichen Zusammenhang zwischen A und B gibt. Aber auch wenn wir einen noch so eindeutigen statistischen Zusammenhang finden, beweist dies noch lange nicht einen solchen Zusammenhang.
Der Grund ist, da� es vielleicht einen ganz anderen, versteckten Grund gibt, nennen wir ihn C, der sowohl mit A als auch mit B zusammenh�ngt.
Dies sei an folgendem Beispiel demonstriert: Untersucht man, ob es einen statistischen Zusammenhang zwischen der Anzahl der St�rche in einem Dorf und der Anzahl der neugeborenen Kinder gibt, indem man Daten aus verschiedenen D�rfern zu verschiedenen Zeiten sammelt und auswertet, wird man wahrscheinlich - statistisch korrekt und signifikant - einen Zusammenhang feststellen k�nnen. Daraus k�nnte man schlu�folgern, man h�tte statistisch nachgewiesen, da� die St�rche Kinder bringen.
Dies ist nat�rlich Quatsch, und der Grund f�r den statistischen Zusammenhang ist einfach erkl�rt - im Laufe der Zeit nahm sowohl die Anzahl der St�rche als auch die der neugeborenen Kinder ab - aus v�llig unterschiedlichen Gr�nden, die nichts miteinander zu tun haben. Die "versteckte Variable" C ist hier die Zeit.
Ob es solche versteckten Gr�nde gibt, kann man den Zahlen der Untersuchung nicht ablesen. Dies kann nur eine unabh�ngige Betrachtung leisten, bei der m�gliche kausale Beziehungen untersucht werden.
Es gibt allerdings einige Grundregeln. Die erste ist die, da� man bei der Untersuchung von Menschen einige Variablen immer als "kritisch" betrachten sollte, weil es kaum menschliches Verhalten gibt, das dadurch nicht beeinflu�t wird oder zumindest werden k�nnte. Dies sind Geschlecht, Alter, Wohnort, Nationalit�t, soziale Lage.
Danach mu� man - aufgrund theoretischer �berlegungen oder aufgrund anderer bereits vorhandener statistischer Resultate - weitere "verd�chtige" Variablen finden. F�r sexuelle Kontakte von Kindern zu Erwachsenen sind die Frage nach der Freiwilligkeit des Kontakts und die nach dem Elternhaus (zerr�ttet oder nicht) sicherlich hoch verd�chtig und sollten sicherlich betrachtet werden.
Bei all den aufgez�hlten Problemen kann man leicht den Eindruck gewinnen, da� es sowieso kaum m�glich ist, statistisch irgendetwas nachzuweisen. Das ist nicht so. Hochrechnungen bei Wahlen aufgrund statistischer Befragungen einer relativ kleinen Zahl von W�hlern liefern oft erstaunlich genaue Ergebnisse, wovon man sich bei jeder Wahl �berzeugen kann.
Wie schafft man das trotz der obengenannten Probleme? Der wesentliche Trick ist, die "verd�chtigen Variablen" zu kontrollieren.
Grob gesagt geht etwa so: Man versucht, alle Gr��en, die das Ergebnis irgendwie beeinflussen k�nnen, herauszufinden. Dann unterteilt man das Ganze in Gruppen, die gleiche Werte der "verd�chtigen Variablen" haben. Dann kann man die statistische Untersuchung f�r jede Untergruppe einzeln durchf�hren und mu� danach die Einzelergebnisse wieder zusammenfassen.
Wie dies genau zu machen ist, kann man in Statistikb�chern nachlesen. Dies soll hier auch nicht interessieren. Die Details dieser Prozedur werden in den Artikeln meist auch nicht angegeben. Wird so etwas gemacht, dann wird es vom Autor jedoch meistens erw�hnt, in Worten wie "die Korrellation bleibt auch nach der Ber�cksichtigung von ... bestehen." Als Laie kann man sicherlich nicht kontrollieren, ob die entsprechenden mathematischen Verfahren richtig angewendet wurden. Dies m�ssen wir den Autoren deshalb einfach erstmal glauben (genauso wie wir ihnen glauben m�ssen, da� sie richtig z�hlen k�nnen und die Ergebnisse nicht bewu�t f�lschen).
Wichtig ist, da� diese Prozedur nur dann stattfinden kann, wenn die fraglichen Variablen f�r jeden Einzelfall auch bekannt sind, d.h. bei der Untersuchung auch abgefragt wurden. Was nicht abgefragt wurde, kann nicht kontrolliert werden.
Daher kann auch ein Laie oft leicht erkennen, da� eine statistische Untersuchung nichts taugt. Wenn bei der Untersuchung gewisse Sachen, die einen Einflu� auf das Ergebnis haben k�nnten, gar nicht abgefragt wurden, ist dies anzunehmen. Die Frage, ob und welche Variablen einen Einflu� haben k�nnen, kann oft auch ein Nichtstatistiker entscheiden.
So ist es z.B. ziemlich egal, ob man Sex mit dem Einverst�ndnis des Kindes f�r gut oder schlecht h�lt, unabh�ngig davon ist es zu erwarten oder zumindest nicht a priori auszuschlie�en, da� ein solches Einverst�ndnis einen Einflu� auf die Folgen hat. Allein dies reicht schon aus, eine Untersuchung, die dies gar nicht abfragt, als unseri�s einzustufen.
Die "Kontrolle von Variablen" kann auch bei Problemen mit nichtrepr�sentativen Samples abhelfen. Fragt man die wichtigen Variablen ab, und hat man gute Informationen �ber die wirkliche Verteilung dieser Variablen, kann man entsprechend umrechnen.
Eine Kontrollgruppe ist eine Variante, solche Variablen auch ohne gro�e mathematische Umrechnungen zu kontrollieren. Man untersucht zwei Gruppen, die sich in der "interessanten" Eigenschaft unterscheiden, aber in anderen m�glicherweise wichtigen Variablen nicht. Dies kann man getrennt kontrollieren. Ist dies der Fall, dann braucht man sich um diese Variablen im weiteren nicht mehr zu k�mmern.
Bei der Beurteilung der Untersuchung ist wiederum der gesunde Menschenverstand gefragt. Die Frage ist auch hier, welche Variablen einen Einflu� auf das Ergebnis haben k�nnen, und ob zu erwarten ist, da� diese in beiden Gruppen etwa gleich wahrscheinlich sind.
Ein typisches Beispiel f�r eine schlechte Auswahl der Kontrollgruppe w�re ein Vergleich von verurteilten Straft�tern mit Polizisten. Hier erkennt man auch mit unbewaffnetem Auge, da� die soziale Lage in der Kontrollgruppe ganz anders aussehen wird als bei den Straft�tern. Und die soziale Lage ist eine der Variablen, die (wie auch Alter, Geschlecht, Wohnort und Nationalit�t) auf ziemlich alles einen Einflu� haben kann und deshalb eigentlich immer kontrolliert werden sollte.
Oft kann man unzureichenden Untersuchungen trotzdem noch wertvolle Informationen abgewinnen. Z.B. indem man die Richtung des Fehlers in einer Untersuchung aufgrund anderer Betrachtungen oder Untersuchungen absch�tzen kann. Dies erlaubt oft, der Untersuchung wenigstens eine Absch�tzung in einer Richtung zu entnehmen.
Beispielsweise kann man aus einer Untersuchung, bei der Folgen sexueller Erlebnisse mit Erwachsenen ohne Kontrolle der Frage "Freiwilligkeit oder Gewalt" untersucht werden, und der zus�tzlichen Annahme, Gewaltkontakte seien sch�dlicher als freiwillige, zwei Absch�tzungen entnehmen:
Was kann man also als Laie nachpr�fen, wenn man eine statistische Untersuchung vor sich hat, die behauptet, einen Zusammenhang zwischen A und B gefunden zu haben? Man nehme folgendes Kochrezept:
Dies kann entweder mit Hilfe einer Kontrollgruppe geschehen, f�r die erw�hnt wird oder es zumindest anzunehmen ist, da� die Variable darin etwa genauso verteilt ist, oder dadurch, da� die Variable im Fragebogen abgefragt und bei der Berechnung der Korrellation ber�cksichtigt wird.
Bei der Untersuchung p�dosexueller Beziehungen und ihrer Auswirkungen ist die Lage leider so, da� selbst der laienhafte Blick nach diesem Kochrezept in vielen, wenn nicht den meisten, Untersuchungen schwere M�ngel finden kann.