Das Experiment

Ich meine wirklich, dass die Naturwissenschaft, in den westlichen Ländern jedenfalls, heute alle Merkmale einer organisierten Religion hat. Da gibt es Novizen, das sind die Studenten an den Universitäten. Da gibt es Priester, das sind die jungen Professoren. Dann gibt es Monsignores, das sind die älteren. Es gibt Bischöfe und Kardinäle, und es gibt Kathedralen. Meine eigene Universität, das Massachusetts Institute of Technology (MIT), ist eine Kathedrale in der Naturwissenschaft. Es gibt sogar Päpste, und auch - das ist sehr wichtig - Häretiker. Die Häretiker werden bestraft, genau so wie die Häretiker einer alten Religion. Sie werden ausgestoßen. Und wenn man schließlich als Häretiker anerkannt ist, dann wird auch behauptet: Der war doch nie ein richtiger Wissenschaftler! Das alles gibt es. Und dann gibt es die große Masse der Gläubigen. In diesem Sinn besteht überhaupt kein Unterschied zwischen Naturwissenschaftsglauben und dem Glauben an die Lehre des katholischen Kirche im Mittelalter.
Joseph Weizenbaum

Auch wenn bei der Definition der Methode des Experiments bisweilen unterschiedliche Akzente gesetzt werden, so besteht doch allgemein Einigkeit darin, dass die aktive Manipulation der Versuchsbedingungen (=Treatmentbedingungen) durch den Experimentator und damit die Möglichkeit Ursache und Wirkung zu unterscheiden, das Wesentliche am Experiment ausmacht. Das Experiment stellt wohl die einzige Forschungsform dar, die es erlaubt Kausalbeziehungen zwischen Variablen zu überprüfen: Zwei oder mehr Variablen sind kausal verbunden, wenn sie in einem empirisch nicht umkehrbaren, asymmetrischen Zusammenhang stehen. X erzeugt Y, aber nicht umgekehrt. X ist dabei die unabhängige und Y die abhängige Variable.

Um in einem Experiment die Wirkung von Koffeingenuss auf die Konzentrationsleistung zu untersuchen, werden die Versuchspersonen in zwei Gruppen aufgeteilt und einer Gruppe Koffein verabreicht und der anderen nicht.

Unabhängige Variable: Ihr Einfluss soll untersucht werden. Dazu wird sie im Experiment plamäßig variiert; hier ist der Koffeingenuss die unabhängige Variable.
Abhängige Variable: Die Variable, deren Abhängigkeit von der unabhängigen Variablen Gegenstand der Untersuchung ist. Im vorliegenden Beispiel die Konzentrationsleistung.
Störvariable: Alle Variablen die sonst noch (d.h. außer der planmäßig variierten unabhängigen Variablen) einen Einfluß auf die abhängige Variable haben, werden als Störvariablen konstant gehalten bzw. so kontrolliert, dass sie keinen Einfluss auf das Testergebnis haben. Hier etwa das Alter der Versuchspersonen, die Tageszeit bei der Durchführung des Experimentes u.ä.

Siehe dazu Was ist Kausalität?

Der Fetisch der Signifikanz: Signifikanz vs Effektstärke

Da die Wissenschaft bekanntlich das Neue prämiert und nicht das Bestätigen von Altem, kommt es in vielen Wissenschaften, auch der Psychologie, zu einer Replikationskrise. Eine der Ursachen ist die Verwendung des heute vorherrschenden Standardansatzes zur Beurteilung wissenschaftlicher Hypothesen, die Signifikanzprüfung. Diese bringt viel zu viele positiv falsche Ergebnisse hervor, wobei es meist an methodischer Strenge mangelt. Außerdem suggeriert sie signifikante und publikationswürdige Zusammenhänge, wo es sich meist nur um interessante Auffälligkeiten handelt, die sich von bisherigen Beobachtungen nur marginal unterscheiden. Strengere statistische Verfahren könnten hier Abhilfe schaffen, wobei es generell aber auch ein viel größeres öffentliches Interesse an Replikationsstudien bräuchte. Natürlich ist die Replikationskrise auch eine Wachstumskrise, denn schließlich ist jede wissenschaftliche Veröffentlichung das Ergebnis eines Projektes, also eines entsprechenden Forschungsantrages, wobei GutachterInnen eine deutlich höhere Ablehnungsquoten durchsetzen müssten, damit das Problem der Replikation an Relevanz verliert.

Es gibt in der Forschungspraxis zwei unterschiedliche Bedeutungen von Signifikanz, die voneinander unabhängig sind, wobei die beiden Sachverhalte meist mit dem gleichen Wort bezeichnet werden, was vielfach den Ausgangspunkt für Missverständnisse in der Kommunikation über die Ergebnisse bildet und einen wissenschaftlichen Kunstfehler darstellt.

Die statistische Signifikanz als Begriff der Inferenzstatistik, die nicht nur die erhobenen Daten beschreibt und zu Parametern (z. B. Mittelwerte)verdichtet, sondern auch Schlüsse eben auf deren Signifikanz ermöglicht, also die Wahrscheinlichkeit angibt, mit der bei kleineren Erhebungsstichproben berechnete Parameter durch Induktion auf größere Stichproben oder gar auf die Population (Grundgesamtheiten) der potentiellen Merkmalsträger verallgemeinert werden können. Bei dieser Form der Signifikanz geht es also um Generalisierung, wobei mit relativ geringem vor allem kostengünstigen Aufwand mit einer angebbaren Wahrscheinlichkeit auf Verteilungen in einer Gesamtheit geschlossen werden kann. Signifikant sind dabei also Ergebnisse, die wahrscheinlichkeitsstatistisch belegt sind.

Davon unterschieden werden muss hingegen die praktische Signifikanz im Sinne von Relevanz oder Bedeutsamkeit. Diese ergibt sich aus der Bewertung, also der Interpretation der erhobenen Daten und der darin hergestellten Relation zu den gesetzten Kriterien. Sind z. B. die Unterschiede zwischen den gemessenen Mittelwerten von Teilgruppen so groß, dass z.B. ein Interventionsprogramm mehr oder weniger positiv zu bewerten ist? Dafür sind andere Verfahren als die der schließenden Statistik erforderlich, nämlich systematische Bewertungsverfahren, wobei die Feststellung der Bedeutsamkeit, in Analogie etwa zur Feststellung von Validität von Ergebnissen, nicht mittels Statistik sondern mittels logischem Schließen, oft abgestützt auf theoretisch begründeten Annahmen, geschieht.

Zentral sind dabei oft Maße der Effektstärke, mit denen man die Bedeutsamkeit von etwa auf Grund großer Stichproben immer signifikanten statistischen Tests bewerten kann. Man darf daher die statistische Güte oder Signifikanz von Forschungsergebnissen nie mit ihrer tatsächlichen Bedeutsamkeit verwechseln.

Effektstärke oder Effektgröße bezeichnet dabei ein (standardisiertes) statistisches Maß, das die (relative) Größe eines Effektes angibt, der vorliegt, wenn in de, (zugehörigen) statistischen Test die Nullhypothese (=kein Effekt) abgelehnt wird. Aus diesem Grund kann die Effektstärke auch zur Verdeutlichung einer gewissen praktischen Relevanz von signifikanten Ergebnissen herangezogen werden, die aus randomisierten Stichproben durch Teststatistiken gewonnen wurden. So führen bei steigenden Stichprobengrößen immer kleinere Effekte zur Ablehnung der Nullhypothese, doch in der empirischen Forschung vor allem in deren praktischen Relevanz interessiert jedoch nicht allein, ob ein Effekt vorhanden ist (Ablehnung der Nullhypothese) oder nicht (Annahme der Nullhypothese), sondern auch wie groß der Effekt ist.

Oft wird eine Mindesteffektgröße vor der Durchführung einer Untersuchung aufgestellt. Wird einen statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Ein Test wird bekanntlich bei genügend großen Stichproben also praktisch immer signifikant. Ein signifikantes Testergebnis wird also nur dann akzeptiert, wenn die Effektgröße z.B. mindestens 0.4 (mittlere Effektgröße) beträgt. Dann kann bestimmt werden, wie groß der Unterschied bei einer bestimmten Stichprobengröße mindestens sein muss, um diesen Effekt zu erreichen.

Versuchsplanung

Bei der Planung von Experimenten verfolgt der Experimentator eine Strategie, die als MAX-KON-MIN-Regel charakterisiert werden kann:

Die Wirkung der unabhängigen Variablen auf die abhängige Variable zu maximieren,
die Einflüsse von unverwünschten systematischen (Stör-) Variablen auf die abhängige Variable zu kontrollieren und
die Effekte von unsystematischen (Zufalls-) Variablen zu minimieren.

Bei der experimentelle Forschung ist die Planungsphase die eigentlich entscheidende Phase. Durchführung und Auswertung sind dann weitgehend festgelegt. Die Planung des Experimentes erfordert, dass der Experimentator zunächst eine Versuchssituation findet, in der die unabhängige Variable manipulierbar ist, und für die abhängige Variable ein geeignetes Meßinstrument gefunden werden kann. Wenn eine geeignete Versuchsanordung gefunden ist, muß als nächstes der Versuchsplan im engeren Sinn (Versuchsgruppen-Plan) festgelegt werden: Dabei wird entschieden, welche experimentellen Bedingungen einbezogen werden (d.h.: welche unabhängigen Variablen in wieviel Stufen variiert werden, und wie die Versuchspersonen den experimentellen Bedingungen zugeordnet werden. Die folgenden Beschreibung der Formen für Experimente mit einer unabhängigen Variablen soll grundsätzliche Aspekte der Versuchsplanung verdeutlichen. Auf die Behandlung von Versuchsplänen mit mehreren unabhängigen Variablen sei auf die weiterführende Literatur z.B. ROTH (1984) verwiesen.

Unabhängige Gruppen

Die einfachsten Versuchspläne enthalten nur eine unabhängige Variable. Zwei oder mehr Bedingungen, z.B. zwei Therapievarianten und eine unbehandelte Kontrollgruppe sollen in ihren Mittelwerten, z.B. hinsichtlich der vegetativen Labilität am Ende einer Behandlungsperiode, verglichen werden. Die Hauptvorteile eines solchen Designs mit nur einer unabhängigen Variablen sind:

Der Versuchsplan ist einfach und robust
Die Zahl der Versuchspersonen in den einzelnen Versuchsgruppen (= Personengruppen, die unterschiedlichen Therapievarianten behandelt wurden) muß nicht gleich groß sein.
Gehen zufällig Meßwerte verloren, so können die übrigen ohne Schaden verwertet werden.

Der Nachteil eines Versuchsplanes mit unabhängigen Gruppen, besteht darin, dass der erforderliche Stichprobenumfang recht groß werden kann. Das gilt besonders dann, wenn keine gerichteten Hypothesen bestehen, die Varianz innerhalb der Gruppen groß und die Effektstärke mittel oder klein ist.

Mehrere parallelisierte Gruppen

Durch Parallelisierung der Versuchsgruppen soll erreicht werden, dass die Versuchsgruppen sich in einem oder in mehreren relevanten Merkmalen genau entsprechen. In dem oben genannten Beispiel des Vergleiches von Therapiebedingungen (zwei Therapiearten, eine Kontrollgruppe) wäre es. z.B. sinnvoll, die Gruppen nach der Ausgangslage (z.B. gemessen mit verschiedenen Fragebögen) zu parallelisieren. Bei einem Lernexperiment zum Vergleich von Unterrichtsmethoden könnte man Vorkenntnisse, Schulleistungen in bestimmten Fächern, aber auch Motivationsvariablen zur Parallelisierung heranziehen. Kurz: Alles, was mit der abhängigen Variablen (Therapieerfolg, Lernerfolg) korreliert, kann eine sinnvolle Parallelisierungsvariable sein.

Die Parallelisierung wird durchgeführt, indem man zunächst von allen Versuchspersonen die Variable erhebt, nach der parallelisiert werden soll. Das erfordert in der Regel eine eigene Vortest-Sitzung. Für k (=Anzahl) experimentelle Bedingungen benötigt man k parallelisierte Gruppen. Man sucht aus dem Datenmaterial jeweils k Versuchspersonen mit gleichen Vortestwerten heraus. Diese k Versuchspersonen werden dann nach dem Zufall auf die k experimentellen Bedingungen verteilt. Danach wird der eigentliche Versuch durchgeführt.

Der Hauptvorteil von parallelisierten Gruppen besteht in der benötigten kleineren Stichprobengröße gegenüber einem Versuchsplan mit unabhängigen Gruppen. Dem stehen folgende Nachteile gegenüber: Vor dem Beginn des eigentlichen Versuchs müssen von allen Versuchspersonen Werte für die Parallelisierungsvariablen erhoben und ausgewertet werden. Das erfordert in der Regel nicht nur eine eigene Vortest-Sitzung, sondern führt bei zeitlich lang erstreckter Versuchspersonen-Anwerbung leicht zu organisatorischen Problemen.

Meßwiederholung der derselben Versuchspersonengruppe

Versuchspersonen zu beschaffen ist meist schwierig. Daher liegt es nahe, eine Versuchsperson für mehr als eine experimentelle Bedingung heranzuziehen. Wird z.B. der Einfluß der Rückmeldungsart (richtig,falsch und keine Rückmeldung) auf das Erlernen von Listen von Wortpaaren untersucht, so könnte man daran denken, jede Versuchsperson drei Listen, je eine unter einer der drei Rückmeldungsarten lernen zu lassen.

Die Vorteile liegen auf der Hand: Es werden wesentlich weniger Versuchspersonen benötigt als bei den beiden vorangegangenen Formen der Versuchsplanung. Es wird keine zusätzliche Sitzung benötigt (wie bei parallelisierten Gruppen).

Der Meßwiederholung an derselben Versuchspersonengruppe stehen jedoch oft inhaltliche Gründe entgegen. Im Laufe länger dauernder Versuchssitzungen verändert sich die Versuchsperson: Sie gewöhnen sich an die Situation, an die Aufgabe, zeigen Übungsfortschritte, Ermüdungserscheinungen. Im Versuchsplan ist dafür zu sorgen, dass diese Effekte nicht mit den experimentellen Bedingungen kollidieren.

Strategien zur Kontrolle von Störvariablen

Ziel jeglicher Versuchsplanung ist die Eliminierung oder die Kontrolle des Effektes von Störvariablen. Diese können vom Experimentator jedoch nur dann kontrolliert werden, wenn er sie als solche identifiziert hat. Zur Kontrolle des Effektes von Störvariablen gibt es eine Reihe von experimentellen Techniken wie Elimination, Konstanthalten, Parallelisieren, Randomisieren u.a., die zu Standard der experimentellen Versuchsplanung gehören:

Elimination:Falls eine bestimmte Variable in einem Experiment als Störvariable auftritt, ist es naheliegend, dass man versucht, sie einfach auszuschalten.
Konstanthalten: Gelingt es nicht, eine Störvariable zu eliminieren (z.B. die unterschiedliche Art der Schulbildung von Versuchspersonen), oder tritt eine Störvariable versuchsbedingt auf (Hawthorne-Studie), so muß man bestrebt sein, diese Einflußgröße konstant zu halten: Nach einer vorexperimentellen Befragung werden nur Versuchspersonen mit gleicher Schulbildung zum Versuch zugelassen u.ä. Dadurch, dass man die Störvariablen zwar nicht eliminiert, aber doch konstant gehalten hat, wird angenommen, dass sie in allen Versuchsgruppen, die Meßwerte nur um denselben (konstanten) Betrag verändert und folglich die Vergleichbarkeit der Gruppen gewährleistet ist.
Parallelisierung: Wenn beispielsweise Versuchspersonen mit sehr unterschiedlicher Schulbildung an einem Problemlösungsexperiment teilnehmen und es sich als unökonomisch erweist, alle Volksschüler aus dem Experiment auszuschließen, so behilft man sich, indem man in allen Versuchsgruppen dieselbe Verteilung der Versuchspersonen nach den vorexperimentell erhobenen Schulabschlüssen sicherstellt.
Randomisierung: Die auch als Zufallszuweisung bezeichnete Technik gilt als das wirksamste methodische Hilfsmittel zur Kontrolle störender Bedingungen. Hierbei werden die Versuchspersonen nach einem Zufallsprinzip den verschiedenen Versuchsgruppen bzw. -bedingungen zugeordnet und man unterstellt dabei, dass sich die verschiedenen vorexperimentellen Störvariablen ebenfalls zufällig hinsichtlich ihrer Wirkung auf die Versuchsbedingungen verteilen und folglich keine systematischen Unterschiede zwischen den Versuchsgruppen bestehen. Da die Störvariablen nicht eliminiert werden können, ist man zumindest bestrebt, die durch sie verursachten systematischen Fehler in unsystematische Fehler zu verwandeln.

Ex post facto-Forschung

Das Experiment Dollard Um das ex post facto-Design zu charakterisieren, werden zunächst noch einmal die wichtigsten Merkmale des experimentellen Vorgehens dargestellt. Die Grundstruktur des experimentellen Ansatzes basiert auf dem Modell: wenn X, dann Y; wenn Frustration auftritt, dann folgt Aggression (J. Dollard). Der Forscher legt ein der Problemstellung angemessenes, praktisch realisierbares Design fest, das eine Methode zur systematischen Veränderung von X beinhaltet. Dann beobachtet er Y um festzustellen, ob die Variation auftritt, die er aufgrund der Veränderung von X erwartet. Wenn das der Fall ist, ist das ein Hinweis für die Gültigkeit der Behauptung: Wenn X dann Y. Beim experimentellen Ansatz macht man von einem kontrollierten X eine Vorhersage auf Y.

Bei der ex post facto-Forschung wird dagegen nur Y systematisch beobachtet. Dann folgt rückblickend eine Suche nach X. Der wichtigste Unterschied zwischen experimenteller und ex post facto-Forschung liegt also in der Möglichkeit der Kontrolle. Bei einem Experiment verfügt man über die Möglichkeit der gezielten Variation der Versuchsbedingungen. Bei einem ex post facto-Design muß man die Dinge so hinnehmen, wie sie vorliegen. Ex post facto-Forschung hat also aus der Sicht der experimentellen Vorgehensweise eine prinzipielle Schwäche: mangelhafte Kontrolle der unabhängigen Variablen.

Ein großer Teil vor allem erziehungswissenschaftlicher aber auch soziologischer Studien sind ex post facto-Untersuchungen.

Zum Experiment in der Psychologie siehe den Hypertext

Werner Stangl (2000). Test und Experiment.
WWW: https://www.stangl-taller.at/TESTEXPERIMENT/ (01-04-08)

Quellen

Stigler, Hubert (1996). Methodologie. Vorlesungskriptum. Universität Graz.
WWW: http://www-gewi.kfunigraz.ac.at/edu/studium/materialien/meth.doc (98-01-03)
Stangl, Werner (1997). Zur Wissenschaftsmethodik in der Erziehungswissenschaft. "Werner Stangls Arbeitsblätter".
WWW: http://paedpsych.jk.uni-linz.ac.at/INTERNET/ARBEITSBLAETTERORD/Arbeitsblaetter.html
http://de.wikipedia.org/wiki/Effektst%C3%A4rke (08-02-20)

Inhaltsübersicht Forschungsmethoden der Psychologie und Pädagogik

inhalt :::: nachricht :::: news :::: impressum :::: datenschutz :::: autor :::: copyright :::: zitieren ::::

navigation: