[werner.stangl]s arbeitsblätter 

Das Experiment

Ich meine wirklich, dass die Naturwissenschaft, in den westlichen Ländern jedenfalls, heute alle Merkmale einer organisierten Religion hat. Da gibt es Novizen, das sind die Studenten an den Universitäten. Da gibt es Priester, das sind die jungen Professoren. Dann gibt es Monsignores, das sind die älteren. Es gibt Bischöfe und Kardinäle, und es gibt Kathedralen. Meine eigene Universität, das Massachusetts Institute of Technology (MIT), ist eine Kathedrale in der Naturwissenschaft. Es gibt sogar Päpste, und auch - das ist sehr wichtig - Häretiker. Die Häretiker werden bestraft, genau so wie die Häretiker einer alten Religion. Sie werden ausgestoßen. Und wenn man schließlich als Häretiker anerkannt ist, dann wird auch behauptet: Der war doch nie ein richtiger Wissenschaftler! Das alles gibt es. Und dann gibt es die große Masse der Gläubigen. In diesem Sinn besteht überhaupt kein Unterschied zwischen Naturwissenschaftsglauben und dem Glauben an die Lehre des katholischen Kirche im Mittelalter.
Joseph Weizenbaum

Auch wenn bei der Definition der Methode des Experiments bisweilen unterschiedliche Akzente gesetzt werden, so besteht doch allgemein Einigkeit darin, dass die aktive Manipulation der Versuchsbedingungen (=Treatmentbedingungen) durch den Experimentator und damit die Möglichkeit Ursache und Wirkung zu unterscheiden, das Wesentliche am Experiment ausmacht. Das Experiment stellt wohl die einzige Forschungsform dar, die es erlaubt Kausalbeziehungen zwischen Variablen zu überprüfen: Zwei oder mehr Variablen sind kausal verbunden, wenn sie in einem empirisch nicht umkehrbaren, asymmetrischen Zusammenhang stehen. X erzeugt Y, aber nicht umgekehrt. X ist dabei die unabhängige und Y die abhängige Variable.

Um in einem Experiment die Wirkung von Koffeingenuss auf die Konzentrationsleistung zu untersuchen, werden die Versuchspersonen in zwei Gruppen aufgeteilt und einer Gruppe Koffein verabreicht und der anderen nicht.

Siehe dazu Was ist Kausalität?

Der Fetisch der Signifikanz: Signifikanz vs Effektstärke

Es gibt in der Forschungspraxis zwei unterschiedliche Bedeutungen von "Signifikanz", die voneinander unabhängig sind, wobei die beiden Sachverhalte meist mit dem gleichen Wort bezeichnet werden, was vielfach den Ausgangspunkt für Missverständnisse in der Kommunikation über die Ergebnisse bildet und einen wissenschaftlichen Kunstfehler darstellt.

Die statistische Signifikanz als Begriff der Inferenzstatistik, die nicht nur die erhobenen Daten beschreibt und zu Parametern (z. B. Mittelwerte)verdichtet, sondern auch Schlüsse eben auf deren Signifikanz ermöglicht, also die Wahrscheinlichkeit angibt, mit der bei kleineren Erhebungsstichproben berechnete Parameter durch Induktion auf größere Stichproben oder gar auf die Population (Grundgesamtheiten) der potentiellen Merkmalsträger verallgemeinert werden können. Bei dieser Form der Signifikanz geht es also um Generalisierung, wobei mit relativ geringem vor allem kostengünstigen Aufwand mit einer angebbaren Wahrscheinlichkeit auf Verteilungen in einer Gesamtheit geschlossen werden kann. Signifikant sind dabei also Ergebnisse, die wahrscheinlichkeitsstatistisch belegt sind.

Davon unterschieden werden muss hingegen die praktische Signifikanz im Sinne von Relevanz oder Bedeutsamkeit. Diese ergibt sich aus der Bewertung, also der Interpretation der erhobenen Daten und der darin hergestellten Relation zu den gesetzten Kriterien. Sind z. B. die Unterschiede zwischen den gemessenen Mittelwerten von Teilgruppen so groß, dass z.B. ein Interventionsprogramm mehr oder weniger positiv zu bewerten ist? Dafür sind andere Verfahren als die der schließenden Statistik erforderlich, nämlich systematische Bewertungsverfahren, wobei die Feststellung der Bedeutsamkeit, in Analogie etwa zur Feststellung von Validität von Ergebnissen, nicht mittels Statistik sondern mittels logischem Schließen, oft abgestützt auf theoretisch begründeten Annahmen, geschieht.

Zentral sind dabei oft Maße der Effektstärke, mit denen man die Bedeutsamkeit von etwa auf Grund großer Stichproben immer signifikanten statistischen Tests bewerten kann. Man darf daher die statistische Güte oder Signifikanz von Forschungsergebnissen nie mit ihrer tatsächlichen Bedeutsamkeit verwechseln.

Effektstärke oder Effektgröße bezeichnet dabei ein (standardisiertes) statistisches Maß, das die (relative) Größe eines Effektes angibt, der vorliegt, wenn in de, (zugehörigen) statistischen Test die Nullhypothese (=kein Effekt) abgelehnt wird. Aus diesem Grund kann die Effektstärke auch zur Verdeutlichung einer gewissen praktischen Relevanz von signifikanten Ergebnissen herangezogen werden, die aus randomisierten Stichproben durch Teststatistiken gewonnen wurden. So führen bei steigenden Stichprobengrößen immer kleinere Effekte zur Ablehnung der Nullhypothese, doch in der empirischen Forschung vor allem in deren praktischen Relevanz interessiert jedoch nicht allein, ob ein Effekt vorhanden ist (Ablehnung der Nullhypothese) oder nicht (Annahme der Nullhypothese), sondern auch wie groß der Effekt ist.

Oft wird eine Mindesteffektgröße vor der Durchführung einer Untersuchung aufgestellt. Wird einen statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Ein Test wird bekanntlich bei genügend großen Stichproben also praktisch immer signifikant. Ein signifikantes Testergebnis wird also nur dann akzeptiert, wenn die Effektgröße z.B. mindestens 0.4 (mittlere Effektgröße) beträgt. Dann kann bestimmt werden, wie groß der Unterschied bei einer bestimmten Stichprobengröße mindestens sein muss, um diesen Effekt zu erreichen.


Versuchsplanung

Bei der Planung von Experimenten verfolgt der Experimentator eine Strategie, die als MAX-KON-MIN-Regel charakterisiert werden kann:

Bei der experimentelle Forschung ist die Planungsphase die eigentlich entscheidende Phase. Durchführung und Auswertung sind dann weitgehend festgelegt. Die Planung des Experimentes erfordert, daß der Experimentator zunächst eine Versuchssituation findet, in der die unabhängige Variable manipulierbar ist, und für die abhängige Variable ein geeignetes Meßinstrument gefunden werden kann. Wenn eine geeignete Versuchsanordung gefunden ist, muß als nächstes der Versuchsplan im engeren Sinn (Versuchsgruppen-Plan) festgelegt werden: Dabei wird entschieden, welche experimentellen Bedingungen einbezogen werden (d.h.: welche unabhängigen Variablen in wieviel Stufen variiert werden, und wie die Versuchspersonen den experimentellen Bedingungen zugeordnet werden. Die folgenden Beschreibung der Formen für Experimente mit einer unabhängigen Variablen soll grundsätzliche Aspekte der Versuchsplanung verdeutlichen. Auf die Behandlung von Versuchsplänen mit mehreren unabhängigen Variablen sei auf die weiterführende Literatur z.B. ROTH (1984) verwiesen.

Unabhängige Gruppen

Die einfachsten Versuchspläne enthalten nur eine unabhängige Variable. Zwei oder mehr Bedingungen, z.B. zwei Therapievarianten und eine unbehandelte Kontrollgruppe sollen in ihren Mittelwerten, z.B. hinsichtlich der vegetativen Labilität am Ende einer Behandlungsperiode, verglichen werden. Die Hauptvorteile eines solchen Designs mit nur einer unabhängigen Variablen sind:

Der Nachteil eines Versuchsplanes mit unabhängigen Gruppen, besteht darin, daß der erforderliche Stichprobenumfang recht groß werden kann. Das gilt besonders dann, wenn keine gerichteten Hypothesen bestehen, die Varianz innerhalb der Gruppen groß und die Effektstärke mittel oder klein ist.

Mehrere parallelisierte Gruppen

Durch Parallelisierung der Versuchsgruppen soll erreicht werden, daß die Versuchsgruppen sich in einem oder in mehreren relevanten Merkmalen genau entsprechen. In dem oben genannten Beispiel des Vergleiches von Therapiebedingungen (zwei Therapiearten, eine Kontrollgruppe) wäre es. z.B. sinnvoll, die Gruppen nach der Ausgangslage (z.B. gemessen mit verschiedenen Fragebögen) zu parallelisieren. Bei einem Lernexperiment zum Vergleich von Unterrichtsmethoden könnte man Vorkenntnisse, Schulleistungen in bestimmten Fächern, aber auch Motivationsvariablen zur Parallelisierung heranziehen. Kurz: Alles, was mit der abhängigen Variablen (Therapieerfolg, Lernerfolg) korreliert, kann eine sinnvolle Parallelisierungsvariable sein.

Die Parallelisierung wird durchgeführt, indem man zunächst von allen Versuchspersonen die Variable erhebt, nach der parallelisiert werden soll. Das erfordert in der Regel eine eigene Vortest-Sitzung. Für k (=Anzahl) experimentelle Bedingungen benötigt man k parallelisierte Gruppen. Man sucht aus dem Datenmaterial jeweils k Versuchspersonen mit gleichen Vortestwerten heraus. Diese k Versuchspersonen werden dann nach dem Zufall auf die k experimentellen Bedingungen verteilt. Danach wird der eigentliche Versuch durchgeführt.

Der Hauptvorteil von parallelisierten Gruppen besteht in der benötigten kleineren Stichprobengröße gegenüber einem Versuchsplan mit unabhängigen Gruppen. Dem stehen folgende Nachteile gegenüber: Vor dem Beginn des eigentlichen Versuchs müssen von allen Versuchspersonen Werte für die Parallelisierungsvariablen erhoben und ausgewertet werden. Das erfordert in der Regel nicht nur eine eigene Vortest-Sitzung, sondern führt bei zeitlich lang erstreckter Versuchspersonen-Anwerbung leicht zu organisatorischen Problemen.

Meßwiederholung der derselben Versuchspersonengruppe

Versuchspersonen zu beschaffen ist meist schwierig. Daher liegt es nahe, eine Versuchsperson für mehr als eine experimentelle Bedingung heranzuziehen. Wird z.B. der Einfluß der Rückmeldungsart (richtig,falsch und keine Rückmeldung) auf das Erlernen von Listen von Wortpaaren untersucht, so könnte man daran denken, jede Versuchsperson drei Listen, je eine unter einer der drei Rückmeldungsarten lernen zu lassen.

Die Vorteile liegen auf der Hand: Es werden wesentlich weniger Versuchspersonen benötigt als bei den beiden vorangegangenen Formen der Versuchsplanung. Es wird keine zusätzliche Sitzung benötigt (wie bei parallelisierten Gruppen).

Der Meßwiederholung an derselben Versuchspersonengruppe stehen jedoch oft inhaltliche Gründe entgegen. Im Laufe länger dauernder Versuchssitzungen verändert sich die Versuchsperson: Sie gewöhnen sich an die Situation, an die Aufgabe, zeigen Übungsfortschritte, Ermüdungserscheinungen. Im Versuchsplan ist dafür zu sorgen, daß diese Effekte nicht mit den experimentellen Bedingungen kollidieren.

Strategien zur Kontrolle von Störvariablen

Ziel jeglicher Versuchsplanung ist die Eliminierung oder die Kontrolle des Effektes von Störvariablen. Diese können vom Experimentator jedoch nur dann kontrolliert werden, wenn er sie als solche identifiziert hat. Zur Kontrolle des Effektes von Störvariablen gibt es eine Reihe von experimentellen Techniken wie Elimination, Konstanthalten, Parallelisieren, Randomisieren u.a., die zu Standard der experimentellen Versuchsplanung gehören:

 

Ex post facto-Forschung

Das Experiment DollardUm das ex post facto-Design zu charakterisieren, werden zunächst noch einmal die wichtigsten Merkmale des experimentellen Vorgehens dargestellt. Die Grundstruktur des experimentellen Ansatzes basiert auf dem Modell: wenn X, dann Y; wenn Frustration auftritt, dann folgt Aggression (J. Dollard). Der Forscher legt ein der Problemstellung angemessenes, praktisch realisierbares Design fest, das eine Methode zur systematischen Veränderung von X beinhaltet. Dann beobachtet er Y um festzustellen, ob die Variation auftritt, die er aufgrund der Veränderung von X erwartet. Wenn das der Fall ist, ist das ein Hinweis für die Gültigkeit der Behauptung: Wenn X dann Y. Beim experimentellen Ansatz macht man von einem kontrollierten X eine Vorhersage auf Y.

Bei der ex post facto-Forschung wird dagegen nur Y systematisch beobachtet. Dann folgt rückblickend eine Suche nach X. Der wichtigste Unterschied zwischen experimenteller und ex post facto-Forschung liegt also in der Möglichkeit der Kontrolle. Bei einem Experiment verfügt man über die Möglichkeit der gezielten Variation der Versuchsbedingungen. Bei einem ex post facto-Design muß man die Dinge so hinnehmen, wie sie vorliegen. Ex post facto-Forschung hat also aus der Sicht der experimentellen Vorgehensweise eine prinzipielle Schwäche: mangelhafte Kontrolle der unabhängigen Variablen.

Ein großer Teil vor allem erziehungswissenschaftlicher aber auch soziologischer Studien sind ex post facto-Untersuchungen.

 

 

Zum Experiment in der Psychologie siehe den Hypertext

Werner Stangl (2000). Test und Experiment.
WWW: http://www.stangl-taller.at/TESTEXPERIMENT/ (01-04-08)

Quellen

Stigler, Hubert (1996). Methodologie. Vorlesungskriptum. Universität Graz.
WWW: http://www-gewi.kfunigraz.ac.at/edu/studium/materialien/meth.doc (98-01-03)
Stangl, Werner (1997). Zur Wissenschaftsmethodik in der Erziehungswissenschaft. "Werner Stangls Arbeitsblätter".
WWW: http://paedpsych.jk.uni-linz.ac.at/INTERNET/ARBEITSBLAETTERORD/Arbeitsblaetter.html
http://de.wikipedia.org/wiki/Effektst%C3%A4rke (08-02-20)


Inhaltsübersicht Forschungsmethoden der Psychologie und Pädagogik




inhalt :::: kontakt :::: news :::: impressum :::: autor :::: copyright :::: zitieren ::::
navigation: