Online-Tests in [werner.stangl]s Arbeitsblättern

Eine allgemeine Einführung in die Online-Forschung finden Sie auf der site http://www.online-forschung.de (05-03-10)

Das Internet als ein immer wichtiger werdendes Medium eröffnet auch die technischen Möglichkeiten zur Interaktion mit einer großen Anzahl von Personen, sodass es mit der Verbreitung des Mediums auch für wissenschaftliche Fragestellungen zunehmend interessanter geworden ist, die ihr Datenmaterial an größeren Stichproben gewinnen müssen. So wird das W3 seit vielen Jahren zur Durchführung von Umfragen (vorwiegend als Ersatz für das Medium Telefon) genutzt. Auch ist der methodische Fortschritt, der bei Online-Untersuchungen gemacht wird, nicht zu unterschätzen, sodass ein wissenschaftlicher Fragebogen, der online zur Verfügung steht, inzwischen nicht weniger Ernst zu nehmen ist als einer für die übliche Datenerhebungsmethoden.

In der Onlineforschung lässt sich das Internet jeweils aus anderen Perspektiven betrachten:

Internet als Gegenstand der Forschung: Dabei wird die Internetnutzung selber untersucht, d.h., es werden z.B. Nutzerprofile erstellt, Gestaltungselemente von Websites wie in der Usability Forschung evaluiert oder Methodentests durchgeführt.
Internet als Mittel der Forschung: Onlineforschung dient als ein Instrument zur Beobachtung des Surf- und Nutzungsverhaltens im Internet.
Internet als Methode der Forschung: Die Daten werden mit Hilfe der Internettechnologie erhoben, wobei das Internet hierbei sowohl zur Datenermittlung als auch zur Teilnehmerrekrutierung für Befragungen eingesetzt werden kann.

Obwohl durch die hier verwendeten Online-Tests vor allem der Methodenspekt angesprochen wird, spielen auch die beiden anderen eine gewisse Rolle, als etwa auf die Verhaltensprofile der TeilnehmerInnen an den Tests rückgeschlossen werden kann.

Betrachtet man die im WWW angebotenen Fragebögen, so zeigt sich, dass viele von Personen durchgeführt werden, die wenig bis gar keine Erfahrung im Erstellen von Inventaren haben. Da nur eine geringe Anzahl von ausgebildeten Fachleuten durchgeführt wird, finden sich im web zahlreiche Anfängerfehler in den Fragebögen, die die erhobenen Daten mehr oder minder unbrauchbar machen, etwa wenn die Sachverhalte, zu denen Stellung genommen werden soll, nicht eindeutig benannt werden. Aber viele Fehler ergeben sich auch daraus, dass die Untersuchungstechniken aus anderen Medien ohne Anpassung ins Internet übernommen werden und keine mediengerechten Verfahren erstellt werden.

Ein nicht unbeträchtlicher Teil der psychologischen Testverfahren arbeitet mit Inventaren die Fragebögen nicht unähnlich sind, sodass sich die Darbietung des Itemmaterials auf einem Bildschirm nicht wesentlich von der Vorgabe auf Papier unterscheidet bzw. in manchen Fällen sogar als vorteilhaft angesehen wird, da die Daten instantan erfasst und ausgewertet werden können - siehe etwa das Wiener Testsystem.

Internet und akademisch psychologische Forschung

Nach Funke (2010) ist das Internet als Medium auch akademischer Forschung längst keine Randerscheinung mehr, wobei zwischen 2003 und 2004 ein Fünftel der von der American Psychological Association gelisteten Zeitschriften mindestens einen Artikel veröffentlicht hatten, in dem Ergebnisse webbasierter Forschung berichtet wurden. In seiner Dissertation setzt sich Funke vor allem mit dem Weblabor auseinander und stellt fest, dass bei der Forschung im Weblabor die Notwendigkeit der physischen Gleichzeitigkeit von Labor, Versuchsleiter und Untersuchungsteilnehmer entfällt, sodass man etwa an Webexperimenten grundsätzlich 24 Stunden am Tag an 365 Tagen im Jahr teilgenommen werden kann, wenn nur ein Zugang zum Internet besteht. Dadurch werden Forschungsmöglichkeiten vor allem auch qualitativ erweitert, was sowohl Vorteile als auch Nachteile und Risiken mit sich bringt. Vorteile der Forschung im Internet zählen für ihn neben einer hohen Standardisierung die überwiegende Automatisierung des Untersuchungsprozesses, das sichere Durchführen anspruchsvoller Experimente, komplexe Filterführung, die konditionale Präsentation multimedialer Stimuli sowie die Randomisierung von Frage- und Antwortreihenfolge. Hinzu kommt die Möglichkeit des Aufzeichnens von Prozessdaten wie Reaktionszeiten und Eingabekorrekturen, was den Schluss auf zugrunde liegende kognitive Prozesse erlaubt, Fehlerquellen wie Versuchsleitereffekte und soziale Erwünschtheit lassen sich verringern, wobei Studien im Web im Vergleich zur Laborsituation vor Ort zwar eine geringere technische Standardisierung aufweisen, was einerseits die Gefahr des Auftretens technischer Probleme birgt, andererseits aber die externe Validität von Ergebnissen durch eine größere Varianz der Befragungssituation steigern kann. Letztlich entfällt die bei Papierfragebögen zeitlich und finanziell aufwändige und fehleranfällige Dateneingabe, sodass eine Datenanalyse meist parallel zur Feldphase erfolgen kann. Weitere Vorteile sind auch die schnelle Erreichbarkeit vieler, mitunter auch geographisch weit voneinander entfernter TeilnehmerInnen und der Zugang zu speziellen Populationen, die man nur selten in ein psychologisches Labor bekommt. Letztlich zeichnen sich Onlinebefragungen trotz einer großen Anzahl von Befragten durch geringe finanzielle Kosten aus. Grundsätzliche Nachteile sind nach Funke neben der technischen Abhängigkeit von Hard- und Software auch der Modus der Datenerhebung, also der Einfluss, den das Medium Internet generell auf psychologische Messungen haben kann. Es besteht auch das Risiko, dass Befragte mit bestimmten Charakteristika systematisch aufgrund technischer Restriktionen von Untersuchungen ausgeschlossen werden und die erzielten Ergebnisse somit verzerrt werden.

Der Kostenfaktor

Bei der Auswahl der Stichproben für die Testentwicklung sind beim herkömmlichem Vorgehen oft Kosten- und Zeitfaktoren entscheidend, also Fragen der Testökonomie. Onlineerhebungen haben jedoch nicht nur Vorteile, denn es ist zum Beispiel relativ schwierig, eine repräsentative Stichprobe zu erhalten. Diese Nachteile werden bei Umfragen häufig dehalb in Kauf genommen, weil diese Methode eben als relativ ökonomisch gilt bzw. schnell und einfach zu implementieren ist. Ausserdem besteht immer noch die Möglichkeit, aus dem Datenpool eine nach mit erhobenen Kriterien repräsentative Teilstichprobe zu ziehen.

Die Einfachheit der Realisierung hat aber auch Schattenseiten: Kaum ein wichtigeres Webportal kommt heute ohne eine obligatorische Umfrage aus. Das Bild der wirklich wissenschaftlichen und qualitativ wertvollen Onlineerhebung wird dadurch getrübt, dass man im Internet zu jedem Thema und auf jedem Niveau förmlich von Umfragen überflutet wird, die lediglich der Unterhaltung dienen.

Allerdings wird bei der Beurteilung der Kosten übersehen, dass nur ein Teil der gesamten Testentwicklung - die Erhebung der Daten selber - über das Internet durchgeführt wird, alle übrigen Phasen jedoch in gleicher Weise durchlaufen werden müssen.

Die Kosten für die Konstruktion eines Online-Tests können jedoch beträchtlich sein, vor allem, wenn zuvor noch nie mit diesem Medium gearbeitet wurde. In der Literatur werden diese "Laborkosten" oft nicht erwähnt, was zur Folge hat, dass fälschlich davon ausgegangen wird, dass elektronische Erhebungen ökonimisch in jedem Fall günstiger sind als herkömmliche Methoden der Datenerhebung. Die generelle Auffassung, dass Internetbefragungen günstiger sind als andere Datenerhebungsformen muss daher nicht zwangsweise stimmen, jedoch bei Testentwicklungen, für die in der Regel besonders viele Personen untersucht werden müssen, letztlich wieder zu einer Reduktion der Kosten kommt, da etwa die Testmaterialien nicht kopiert werden müssen oder keine Infrastruktur wie ein Testlabor angemietet zu werden braucht. Auch fallen die Kosten für die Aquisition und die Betreuung etwa durch einen Versuchsleiter weg, die bei Testentwicklungen oft den größten Aufwand mit sich bringen.

Ein nicht zu unterschätzender Vorteil ist auch das Vorliegen der Daten in elektronischer Form, da diese via Datenleitung in Datenbanken einfließen, sodass sie instantan zur Weiterverarbeitung zur Verfügung stehen.

Vermutlich werden Internetbefragungen immer häufiger zum Einsatz kommen, jedoch ist es unwahrscheinlich, dass diese Art der Erhebung die herkömmlichen Methoden völlig ersetzen kann, sondern die Online-Befragung mit ihren Vor- und Nachteilen wird eine praktische Ergänzung darstellen.

Die vorliegenden Testverfahren des Autors (HALB-Test, SIT, PW und LoC) wurden zunächst in einer Papier&Bleistift-Version entwickelt und bei kleineren Stichproben in herkömmlicher Weise überprüft. Erst dann wurden sie - teilweise Jahre später - online realisiert. Dabei zeigte sich, dass innerhalb kürzester Zeit große Datenmengen zur Verfügung stehen - bei manchen Tests fallen täglich an die 100 Datensätze an -, die in ihrer Struktur sich nicht von den Daten unterschieden, die etwa in Untersuchungsreihen an der Universität oder in Felderhebungen angefallen waren. Diese Verbreiterung der Datenbasis ermöglicht daher eine einfache und kostengünstige Weiterentwicklung bestehender Verfahren.

Der SIT wurde übrigens 2007 von der STIFTUNG WARENTEST neben anderen 23 Onlineverfahren zur Selbsteinschätzung (14 für Erwachsene und 9 für Jugendliche) unter die Lupe genommen und mit dem Testurteil "gut" bewertet!

Die Testkonstruktion

Die allgemeinen methodischen Anforderungen, die an die Gestaltung von Testverfahren sowie die Abfolge und Formulierung von Fragen bei den herkömmlichen Methoden zu stellen sind, gelten auch für Online-Untersuchungen. Die Beachtung der allgemeinen methodischen Anforderungen ist vor allem deshalb von besonderer Bedeutung, weil die Befragten sich ohne Hilfe eines Testleiters im Inventar zurechtfinden müssen und die Items verstehen und dadurch adäquat beantworten müssen. Webbasierte Verfahren müssen auch für weniger erfahrene und sachkundige UserInnen zu handhaben sein, was durch die spezifischen technischen Möglichkeiten wie zum Beispiel optisch hervorgehobene Buttons und vordefinierte Eingabefelder erleichtert werden kann. Darüber hinaus sind eine klare Führung durch den Test und allgemein verständliche Instruktionen wesentliche qualitätsrelevante Merkmale. Stets sollte es möglich sein, bereits gegebene Antworten zu korrigieren. Der Einsatz von abrufbaren Hilfestellungen, Eingabekontrollen (z.B bei einer nicht instruktionsgemäßen Auswahl von mehr als den vorgegebenen Alternativen) und anderen technischen Möglichkeiten (alerts zur Ergebnisausgabe oder mit der Bitte um Geduld beim Aufruf der nächsten Seite) ist untersuchungsspezifisch zu prüfen und hinsichtlich seiner methodischen Implikationen abzuwägen (vgl. Standards zur Qualitätssicherung für Online-Befragungen 2001).

Bei Online-Tests muss daher sowohl bei der Formulierung als auch der Leitung durch den Test berücksichtigt werden, dass der Getestete im Handling weitgehend auf sich allein gestellt ist, was allerdings auch bei vielen Tests, die in großen Gruppen (z.B. Schulklassen, Abteilungen) ausgeführt werden, ebenfalls zutrifft. Daher ist bei der Konstruktion ein hohes Ausmaß an Antizipation möglicher Probleme notwendig, wozu eine Feedback-Funktion nützlich sein kann. Zahlreiche psychologische Verfahren erfordern nach wie vor die 1:1-Situation von Testleiter und Getestetem, sodass zumindest in dieser Hinsicht eine negative Selektion möglicher Fragestellungen ergibt. Durch die technischen Möglichkeiten des Mediums (z.B. selektierbare Antwortvorgaben, Bild- und Tonunterstützung) können Verfahren jedoch so gestaltet werden, dass sie für die Testpersonen auch besser und einfacher zu handhaben sind, als Papier-Bleistift-Inventare. Diese medialen Möglichkeiten stellen sich in etwa gleich dar wie bei anderen computergestützten Testverfahren. Allerdings ergeben sich aus den Eigenarten der Formulareingabe im WWW auch zahlreiche Fehler, so werden bei Radio-Buttons, bei Pop-Up-Menüs (Select-Boxen), bei denen bestimmte Kategorien vorselektiert sein müssen, flüchtige Antworter verführt, die voreingestellten Kategorien zu übernehmen. Die Ergebnisse sind in solchen Fällen daher eher ein Spiegel des Ausmaßes der Bequemlichkeit der speziellen Befragten als ein Gradmesser ihrer Merkmale.

Bei verbal dargebotenen Items sind sprachliche Verständigungsschwierigkeiten häufig, weil Begriffe enthalten sein können, die der Netzbevölkerung nichts sagen, weil sie falsch verstanden werden oder weil sie unterschiedlich ausgelegt werden können. Zwar besteht dieses Problem bei allen Tests, jedoch fehlt bei dieser Darbietungsform die Möglichkeit der Rückfrage beim Testleiter - theoretisch wäre diese zu realisieren, allerdings gehen dadurch viele Vorteile wieder verloren.

Da die Zusammensetzung bezüglich der sozialen Schichtung, dem Alter usw. ist im Internet sehr unterschiedlich, es sollte also ein Vokabular bzw. ein Design verwendet werden, die allen Beteiligten gemeinsam sind. Hier gelten allerdings dieselben Kriterien, wie sie bei allen traditionellen Inventaren angewendet werden müssen - siehe dazu Die Formulierung von Fragen für Fragebögen.

Viele Inventare im WWW sind zu lang, denn während bei schriftlichen Umfragen ein geschicktes Layout helfen kann, die Länge eines Fragebogens zu verschleiern, ist das bei Internet-Untersuchungen kaum möglich. Mit der Länge nimmt die Abbruchquote zu und auch die Antworten werden unzuverlässiger. Es gilt die Faustregel, dass Fragebögen mit mehr als 15 bis 25 Fragen für das Medium zu lang sind. Die hier angebotenen Tests umfassen aufgrund ihrer Konstruktion zwar mehr Einzelitems, aufgrund der situationalen Komponente sind diese aber zu Clustern zusammengefasst, die durch eine Nummerierung psychologisch "verkürzt" scheinen. So enthält der HALB-Test 40 Items in 10 Situationen, wobei durch die Instruktion die Anzahl der Wahlen pro Situation auf 2 beschränkt wird. Der LoC-Test enthält 12 Situationen mit insgesamt 48 Items, der Situative Interessen Test enthält 30 Situationen mit jeweils 2 Alternativen, also insgesamt 60 Items.

Testverfahren	Situationen	Items	Durchschnittliche Testdauer in sec.	Datensätze (Stand Jänner 2005)	Datensätze (Stand Dezember 2008)
HALB-Test	10	40	315	25371	145000
LoC-Test	12	48	546	6477	14300
Situative Interessen Test	30	60	345	8312	72500
Persönliche Wunschvorstellungen	6	36	247	12923	36100
Persönlichkeitstest	-	48	233	-	85900
Stressbelastungstest	-	40	270	-	18200

Die in der oben stehenden Tabelle angeführten Daten zur Testdauer sind mit einiger Vorsicht zu betrachten, da sie nur die Zeitdauer zwischen Aufruf der Seite und Abruf der Testergebnisse nach der Durchführung erfassen. Einige "Ausreißer" in der Verteilung weisen darauf hin, dass manche ProbandInnen das Ausfüllen offensichtlich auch unterbrechen. Es kann also nicht unmittelbar aus diesem Datum auf die Sorgfalt der Durchführung geschlossen werden. Beim SIT wurde darüber hinaus noch die Zeit erfasst, die ein Proband zwischen dem Aufruf des Testergebnisses bzw. der Interpretation und dem Aufruf einer Vergleichstabelle verstreichen läßt, also die Intensität, mit der die Hinweise zur Interpretation der Daten durchgearbeitet werden. Diese beträgt im Durchschnitt 120 Sekunden. Indirekt kann man daraus teilweise auf das Interesse der Probanden am Testeregebnis rückschließen.

NutzerInnen verweilen bei Internetangeboten solange, wie sie ihnen interessant und anziehend erscheinen, was natürlich auch für Tests im Netz gilt - sie werden diesen bei Aufkommen von Langeweile vermutlich abbrechen, unkonzentriert weiterlesen oder Zufallsankreuzungen durchführen. Bei psychologischen Verfahren wird des weiteren derselbe Sachverhalt in leichter Umformulierung mehrmals zur Beurteilung vorgelegt, sodass sich der Antwortende erinnern kann, dass er die passende Reaktion bereits gegeben hat.

Langweilig für den Antworter wird es auch, wenn er lange darauf warten muss, etwa wenn Befragungsprogramme jede Frage einzeln übertragen. Hier wird die Geduld des Befragten manchmal durch lange Verarbeitungsdauer strapaziert. Daher wurde bei allen eigenen Testverfahren eine einseitige Darbietung gewählt, bei der ein zurückscrollen jederzeit möglich ist, was seinerseits wieder das Problem mit sich bringt, dass die ProbandInnen Fragen nachträglich ändern oder kontrollieren können. Zwar empfiehlt Gräf (1997) pro Bildschirmseite nur eine Frage zu plazieren, also eine 'One screen one item - Verfahren' zu realisieren, da einige Befunde darauf hindeuten, dass solche Befragungen bessere Daten generieren.

Alle demographischen Angaben sind für die UserInnen uninteressant, denn sie geben einem Fremden eine Auskunft, erfahren aber für sich selbst nichts. Befragte fühlen sich - wie auch in anderen Vorgabeformen - schnell belästigt und brechen die Testdurchführung ab bzw. hinterlassen unausgefüllte Felder. In allen Testverfahren werden diese Daten am Ende erfasst, wobei nur nach Alter, Geschlecht, regionale Herkunft mittels Radio-Buttons und Beruf mittels Texteingabe gefragt wird. Es wurde bewusst darauf verzichtet, diese Antworten mittels Script zu erzwingen, wozu auch beiträgt, dass nach den ersten fünftausend Fragebögen im Durchschnitt 97-98% der UserInnen diese Angaben liefern.

Die Stichprobe

Bei Online-Verfahren ist manchmal die Qualität eines Testinstruments eher weniger das Problem, vielmehr geht es um das Auffinden des Fragebogens im Dickicht des W3. Wenn niemand weiß, dass es dieses Testverfahren online gibt, wird auch niemand danach suchen. Die Chance einen Online-Test zufällig zu finden ist eher minimal. Das Vorhandensein von Tests muss daher propagiert werden, wobei Ankündigungen in Usenet-Newsgroups, Links von möglichst vielen anderen Seiten zur Befragung hin, Werbe-Banner auf häufig besuchten Seiten und Ähnliches unterstützend sein können. Doch kosten Werbebanner Geld, Links werden nur erstellt, wenn es eine inhaltliche Verbindung zur ursprünglichen Seite gibt und Ankündigungen in Newsgroups oder Mailing-Listen zielen auf eine sehr beschränkte Population ab.

Bei Testentwicklungen kommen meist zwei Stichproben zum Einsatz:

Bei Convenience samples handelt es sich um Versuchspersonen, die sich freiwillig zur Verfügung stellen, was bei universitären Entwicklungen oft mehr oder minder freiwillig mitarbeitende StudentInnen sind. Es ist zwar kostengünstig, eine solche Stichprobe anstatt einer Zufallsstichprobe einzusetzen, allerdings kommt es dadurch zu statistischen Verzerrungen etwa in Bezug auf Altersgruppen und Bildungsstand, und es kann nur mehr sehr bedingt auf die Gesamtpopulation rückgeschlossen werden. Solche Stichproben erweisen sich jedoch häufig als sinnvoll, um Probeversionen von Testverfahren zu erproben, sodass solche Samples fast allen psychologischen Testentwicklungen zugrunde liegen. Meist werden häufig erst nachträglich zur Standardisierung der Verfahren größere Stichprüben außerhalb des universitären Feldes verwendet. Dabei handelt es sich dann meist um
Probability samples, denen eine Wahrscheinlichkeitsauswahl aus der Gesamtpopulation zugrunde liegt, sodass Vergleiche mit diesen etwa in Form von Standardwerten oder Normierungen möglich werden. Eine Zufallsauswahl liegt vor, wenn jedes Element der Grundgesamtheit mit einer apriori Wahrscheinlichkeit kleiner eins in die Stichprobe gelangen kann. Solche Stichproben werden häufig im Rahmen von Diplomarbeiten oder Dissertationen untersucht, da diese kostengünstiger sind als Untersuchungen bei extern finanzierten Forschungsprojekten.

Online-Verfahren bieten daher schon bei der Entwicklung die Möglichkeit, kostengünstig mit Stichproben zu arbeiten, die außerhalb der Universität liegen. So wird etwa bei der Itemauswahl ein Einfluss des höheren Bildungsniveaus reduziert.

Auf Grund des derzeitigen Verbreitungsgrades wird eine Interneterhebung für die Gesamtbevölkerung nie repräsentativ sein, und auch die Repräsentativität für die Grundgesamtheit der InternetnutzerInnen ist a priori nicht erreichbar, da die Tests innerhalb eines inhaltlichen Kontextes liegen, der eine gewisse Vorselektion trifft. Zum Beispiel nutzen nach einer neueren Untersuchung aus dem Jahr 2009 nicht alle Personen in Deutschland das Internet, sondern nur 72% aller deutschen Erwachsenen, und die restlichen 28% der Nichtnutzer müssen nicht unbedingt demographisch mit den Nutzern vergleichbar sein. Aussagen für die gesamte Bevölkerung auf Grund einer Internetuntersuchung sind also mit Vorsicht zu genießen.

Bei einer WWW-Befragung erfolgt keine aktive Stichprobenziehung, daher ist das Resultat keine Zufallsauswahl, sondern eine selbstselektierende Stichprobe. Solche "passiven" Auswahlen bzw. Rekrutierungen haben wegen ihrer Selbstselektivität Verzerrungen der Stichprobe zur Folge, etwa weil dadurch "professionelle" Befragungsteilnehmer für gewöhnlich überrepräsentiert sind. Allerdings kann aufgrund soziodemografischer und insbesondere psychografischer Merkmale zumindest teilweise geprüft werden, ob die vorliegenden Daten repräsentativ sind.

Häufig ist bei Online-Erhebungen daher auch der Selbstselektionsfehler zu finden, der bei Untersuchungen auf Webseiten entsteht, bei denen jeder ohne besondere Aufforderung teilnehmen kann. Allerdings kann Repräsentativität auch bei Onlinebefragungen gegeben sein, wenn etwa der Befragungsgegenstand selbst das Internet ist oder einen Internetzugang voraussetzt oder wenn die Befragten über verschiedene Kanäle aufgefordert werden an einer Untersuchung teilzunehmen. Nicht Internetbenutzer sollten mithilfe einer anderen Methode befragt werden (z. B. Fragebogen aus Papier). Hohe Teilnehmerzahlen sagen prinzipiell etwas über die Genauigkeit repräsentativer Erhebungen aus, denn nach dem Gesetz der großen Zahl gleichen sich Fehler in einer Erhebung bei größer werdender Anzahl aus. Entscheidend zur Beurteilung der Qualität von Studien ist daher stets eine Beschreibung des Untersuchungsvorgehens, wie die die Stichprobe gefunden (Zufall, Quote) gefunden wurde, wie viele Personen nach Abzug der Verweigerer daran teilgenommenhaben, oder wie gegebenenfalls die Ergebnisse gewichtet wurden.

Es ist daher notwendig, durch das Vorliegen von Adressenlisten von Teilpopulationen, die z.B. per e-Mail angeschrieben werden und so zur Teilnahme am Testverfahren "ermuntert" werden, die Daten der selbstrekrutierten Stichproben zu überprüfen. Das kann auch über Mailinglisten (bekannte Stichprobe) und Newsgroups (nur teilweise bekannte Stichprobe) erfolgen, wobei hier der Bindungsgrad an die Fragestellung bzw. die Verankerung des Testentwicklers in diesem virtuellen sozialen Kontext eine Rolle spielt. Die auf dieser Site versammelten Verfahren wurden etwa im Rahmen von Lehrveranstaltungen eingesetzt, wobei diese TeilnehmerInnen vermittels eines Codes bei der Berufsbezeichnung aus dem Insgesamt der übermittelten Daten zu erkennen waren. Es zeigte sich, dass sich die psychometrischen Kennzahlen der Stichproben von StudentInnen der eigenen Universität nicht von denen anderer Universitäten unterscheiden.

Bei der Rekrutierung von Teilnehmern über Diskussionsforen ist zu beachten, dass gepostete Teilnahmeaufrufe manchmal als Verstoß gegen die "Netiquette" gewertet werden können, insbesondere dann, wenn das Thema der Befragung nicht genau zum Thema eines Forums passt. Diese Rekrutierung per Forum deckt sich hinsichtlich der Nebeneffekte im Wesentlichen mit denen bei der Rekrutierung über Newsgroups. Die Zahl der Personen, die ein Forum aufsuchen, ist meist unbekannt sein, lediglich die Anzahl der aktiven Schreiber sowie die Anzahl der Besuche - nicht aber der BesucherInnen - lässt sich über einen bestimmten Zeitraum ermitteln. Wie viele Personen eine einzelne Nachricht innerhalb eines solchen Forums lesen, lässt sich ebenfalls meist nicht genau feststellen, so dass die Teilnahmeaufforderung als eine Art Versuch der Vollerhebung unter allen Lesern des Forums betrachtet werden kann. Es müsste in manchen Foren allerdings berücksichtigt werden, dass Personen oft unter Pseudonymen mit mehreren Identitäten am Forum teilnehmen. Diese Form der Rekrutierung ist vermutlich eher für qualitative Erhebungen sinnvoll, weniger für quantitative Zielsetzungen. Propagierung von Fragebögen via Foren erfordern auch eine besonders überlegte Formulierung des einleitenden Forenbeitrags, denn einfach den Link ohne Kommentar zu posten lockt wohl kaum Probanden an. Es ist daher sinnvoll, einen Befragungsaufruf mit Nennung des Befragungsziels, des Ansprechpartners, der Incentives, der ungefähren Befragungsdauer usw. zu posten.

Die auf dieser Site vorliegenden Testverfahren (HALB-Test, SIT, PW und LoC) haben in dieser Hinsicht eine Sonderstellung, da sie im Rahmen einer seit vielen Jahren im Internet gut etablierten Site (mit ca. 6000 bis 12000 visits pro Tag) liegen und durch einfache Verlinkung innerhalb dieser Seiten aufgefunden werden können. Zu Beginn wurden sie auch auf der Indexseite der Site besonders hervorgehoben, wodurch eine entsprechende Öffentlichkeit gesichert war. Ausserdem stehen die Verfahren in unmittelbarem Bezug zu thematischen Schwerpunkten der Site (Lernen, Lerntechnik, Interessen, Motivation), sodass nur wenig zusätzlicher Aufwand notwendig war, die UserInnen zur Durchführung der Verfahren zu "veranlassen". Dazu hat auch eine weitere Site des Autors - test & experiment in der psychologie - beigetragen, die ebenfalls innerhalb des W3 einen hohen Bekanntheitsgrad genießt. Ein Test (HALB-Test) wurde zusätzlich in einer Version für Kinder bzw. SchülerInnen im Rahmen der ebenfalls im internet etablierten site "Benjamins & Werners Praktische Lerntipps" angeboten, die in diesem Fall zu einem zusätzlichen Aufkommen an BesucherInnen führte (ca. 50 Tests pro Tag).

Die Beliebtheit bzw. Nachfragefrequenz ist bei den Testverfahren zwar auch aufgrund der unterschiedlich häufigen Verlinkung innerhalb der site verschieden, was noch dadurch verstärkt wird, dass ein Test (HALB) zweimal in unterschiedlichen Kontexten angeboten wird (innerhalb der Arbeitsblätter und innerhalb der Lerntipps). Deshalb ist es nicht verwunderlich, dass dieser Lerntypen-Test über einen zufälligen Beobachtungszeitraum von knapp vier Wochen (mehr als 4100 Tests) 57 Prozent der Besucher angezogen hat, gefolgt vom SIT mit 22 Prozent und dem PW mit 14 Prozent. Jener Test, der ein eher abstraktes psychologisches Konstrukt erfasst (LoC), erreicht in diesem Zeitraum nur 7 Prozent am Gesamtdatenaufkommen. Es muss dabei berücksichtigt werden, dass von allen Testseiten Querverbindungen zu den anderen Verfahren bestehen, sodass viele ProbandInnen nach der Absolvierung eines Tests auf den Geschmack kamen und ein oder zwei weitere absolvieren.

Beobachtung am Rande: in den Nachtstunden finden sich häufig Berufsgruppen, die Nachtdienste zu absolvieren haben und dabei die vorhandenen Internet-Zugangsmöglichkeiten nutzen. So sind vor allem nach Mitternacht MEZ die Pflegeberufe wie Krankenschwestern oder Ärzte überrepräsentiert. Die spanische Version wird ebenfalls vor allem in den Nachtstunden genutzt, was auf die immer zahlreicher werdenden Zugriffe aus den südamerikanischen Ländern zurürckzuführen ist.

Es gibt auch saisonale Unterschiede in den Frequenzen, denn während der SIT als Hilfe für die Laufbahnenrscheidung vor allem während der Sommersemester stark nachgefragt wird, haben die persönlichen Wunschvorstellungen (PW) vor allem in der Adventzeit ihr Hoch. Allerdings bewegen sich diese Veränderungen nur im Bereich von etwa plus zwanzig bis dreißig Prozent. Seit der Einführung des Stress-Bealstungstests hat dieser die saisonalen Höhepunkte "übernommen", wobei er vor allem in der Vorweihnachtszeit und um Ostern herum nachgefragt wird. In der Osterzeit betrifft das vor allem weibliche ProbandInnen. Offensichtlich empfinden zu dieser Zeit die Menschen die Belastung durch die vielfältigen Vorbereitungsarbeiten als persönliche Stressfaktoren.

Das lässt sich deutlich an der Überrepräsentation von weiblichen UserInnen (in fast allen Tests etwa bei 60 Prozent) und SchülerInnen ablesen. Der letzte Umstand hat auch mit der Zielgruppe zweier Verfahren zu tun: Bestimmung der Lerntypen und der Berufsinteressen. Immerhin ist es beim SIT überraschend, dass soviele ältere ProbandInnen ihre Berufsinteressen erkunden, was zumindest partiell mit einer erlebten Berufsunzufriedenheit zu tun haben dürfte, was sich in den Kommentaren zu den Testergebnissen äußert.

Repräsentativität ist dann vorhanden, wenn die Stichprobenparameter (Mittelwert, Varianz) als gute Schätzungen der Parameter der Grundgesamtheit gesehen werden können. Da die interessierenden Parameter der Grundgesamtheit jedoch nicht bekannt sind geht man davon aus, dass die Grundgesamtheit dann gut abgebildet wird, wenn die Stichprobe zufällig gezogen wird und keine systematischen Ausfallprozesse vorliegen.

Sinnvoll scheint daher der Einsatz von Online-Erhebungen dann, wenn die Repräsentativität nur eine untergeordnete Rolle spielt, da mit dem Test allgemeinpsychologische Phänomene erfasst werden sollen, wie das bei manchen psychologische Experimenten der Fall ist. Auch Pre-Tests von Testinstrumenten und Erhebungen mit explorativen Charakter sind für Online-Datenerfassungen gut geeignet.

Ein Testverfahren liegt seit Anfang 2004 auch in einer spanischen Version vor: Test ¿Cómo puedo aprender de forma óptima? Zu dieser Version des HALB-Lerntypentests liegen derzeit noch zu wenige Daten vor, um einen Vergleich hinsichtlich Verbreitung und Stichprobe vorzunehmen. Interessant wird neben der Überprüfung der Übertragung des deutschsprachigen Tests ins Spanische mittels Strukturvergleich auch die Analyse der Stichprobe hinsichtlich Alters- und Bildungsstruktur sein.

Datenkontrolle

Das Medium Internet bietet - wie ersichtlich wird - also verschiedensten Institutionen aus unterschiedlichsten Bereichen die Möglichkeit, Studien aller Art vorzunehmen bzw. vornehmen zu lassen. Allerdings - trotz aller Vorteile, die exemplarisch Umfragen über das Internet bringen - gibt es auch manche Probleme bzw. Schwierigkeiten, die es zu bewältigen gilt. So muss im Besonderen erst einmal dafür gesorgt werden, dass Personen, die im Internet "surfen", zum einen auf die Umfragen aufmerksam werden und zum anderen eine Motivation vorhanden ist, daran teilzunehmen.

Bei vielen Online-Umfragen werden Incentives vergeben - materielle Anreize, die zur Teilnahme motivieren bzw. den Probanden für den Zeitaufwand und eventuelle Online-Kosten entschädigen sollen. Bei solchen Incentives handelt es sich meist um Gutschriften für den Kauf bei Online-Shops oder die Teilnahme an Gewinnspielen. Bei den hier vorliegenden Tests wurde bewusst darauf verzichtet, da diese eher "Incentivejäger" anlocken, die gezielt an so vielen Untersuchungen wie möglich teilnehmen, um damit Geld oder Preise zu verdienen. Sie schaden der Aussagekraft von Daten, da sie meist thematisch nicht involviert sind und sich nur durch Fragebögen "durchklicken" um sich für die Entlohnung zu qualifizieren. Inzwischen gibt es im Internet sogar spezielle Webseiten, die sich direkt an Personen richten, deren Interesse darin besteht, an möglichst vielen Online-Befragungen teilzunehmen, um in den Besitz der entsprechenden Incentives zu gelangen. Diese Personengruppe neigt auch zu Mehrfachteilnahmen, da sie ausschließlich durch die Incentive-Vergabe motiviert wird. Die Qualität der von solchen Personen gewonnenen Daten ist als fraglich einzustufen, da sie häufig nicht nur ohne thematisches Interesse oder nötige Vorkenntnisse an Befragungen teilnehmen, sondern bewusst persönliche Angaben fälschen, um sich für den Teilnehmerkreis mehrfach zu qualifizieren. Solche Personen sind meist unter zahlreichen Identitäten im Netz unterwegs und stellen bei ungerichteten Ansprachen ein Problem dar und erfordern umfassende Kontrollmaßnahmen.

Im Internet gibt es zahlreiche Angebote, an Untersuchungen aller Art mitzumachen: Seriöse Marktforschungsinstitute, die damit argumentieren, dass der Beitrag der Gesellschaft nutzt, wobei die Incentives sind in der Regel niedrig sind, die Fragebogen jedoch meist interessant. Kommerzielle Anbieter, die relativ gut bezahlen, und nicht immer auf den ersten Blick erkennbare unseriöse Anbieter, bei welchen man nur Punkte verdienen kann, wenn man etwas erwirbt. Darüber hinaus existieren zahlreiche Seiten, auf denen man Internetadressen kaufen kann, wo versprochen wird, dass man monatlich 5000 Euro und mehr verdienen kann, wenn man sich nur bei genug Anbietern anmeldet. Diese "Vermittler" verdienen über die Werbung, die sie für die eigentlichen Fragebogenanbieter machen.

In der professionellen Marktforschung geht daher der Trend in Richtung einer statistisch sauberen, gerichteten Ansprache, die das Incentivejagen unmöglich macht. Die einzige "legitime" Möglichkeit, mit Umfragen tatsächlich Geld zu verdienen ist die, sich mit seinen persönlichen Daten in einem offenen Kunden- oder Konsumerpanel registrieren zu lassen, da hier Mehrfachteilnahmen nicht möglich sind und Teilnehmer, welche die Fragen nicht ernsthaft beantworten (erkennbar beispielsweise an der Zeitdauer oder dem Antwortmuster) auch wieder aus dem Panel entfernt werden können. Ein seit einiger Zeit auftretendes Problem für Panelbetreiber und Umfrageforscher sind allerdings "Berufsbefragte", also Personen, die an so vielen Umfragen wie nur möglich teilnehmen, um damit Geld zu verdienen. Bei diesen Berufsbefragten treten gewisse Gewöhnungseffekte ein, die die Qualität der erhobenen Daten langfristig in Frage stellen. Die "Entwicklung" von Berufsbefragten stellt deshalb ein größeres Problem für die Onlineforschung dar, da viele Panels selbstrekrutierend sind und der Aufwand für eine Queranmeldungen meist gering ist. In der Zukunft werden aus dieser Sicht daher Möglichkeiten gesucht werden müssen, Berufsbefragte aus Panels auszuschließen bzw. diese zumindest zu kontrollieren bzw. die Panels aktiv anstatt passiv zu rekrutieren, wie es bereits einige Institute tun.

Um zu überprüfen, ob systematische Unterschiede zwischen TeilnehmerInnen und NichtteilnehmerInnen vorliegen, muss man nachträglich bekannte Parameter und Verteilungen der vorliegenden Grundgesamtheit mit denen der Stichprobe vergleichen. So liegen für alle hier angebotenen Testverfahren Daten aus kleineren "normalen" Teilstichproben vor, deren Parameter sich nicht von den Online-Daten unterscheiden.

Online-Untersuchungen unterliegen vermutlich systematischen Ausfallmechanismen, da bestimmte Teile der Population von der Teilnahmemöglichkeit ausgeschlossen sind oder eine generelle Nichtteilnahme bestimmter Populationsteile angenommen werden muss - siehe dazu die Ausführungen oben zu den Stichproben.

Ein weiteres Problem ist die Möglichkeit, dass eine UserIn an einem Test mehrmals teilnimmt, sodass sich die Stichprobe aus Menschen zusammensetzt, die "normal" teilnehmen - etwa aus Interesse - oder "Aktivisten", die mehrfach teilnehmen, was dann zu erheblichen Verzerrungen der Ergebnisse führen würde.

Eine Möglichkeit dem entgegenzuwirken ist daher neben der unkontrollierbaren Online-Befragung auch eine repräsentative Erhebung durchzuführen, wodurch Korrektur-, Gewichtungs- und Hochrechnungsfaktoren ermittelt werden können.

Bei den vorliegenden Testverfahren innerhalb der Arbeitsblätter kommt hinzu, dass diese vor allem für LehrerInnen bzw. Bildungseinrichtungen von Interesse sind - hier sind vor allem der Lerntypentest HALB und der SIT zu nennen. bei beiden kommt es an manchen Tagen zu lawinenartigen eintreffenden Datensätzen, die darauf hindeuten, dass ganze Schulklassen gleichzeitig diese Tests bearbeiten. Das zeigt sich einerseits durch die Berufs- und Altersangaben der ProbandInnen, aber auch die identischen Betriebssystemangaben, die gleichfalls mit den Daten übermittelt werden. Auch aufgrund der immer wieder "schülerInnentypischen" Kommentare, die während solcher "Massensessions" eintreffen, kann darauf geschlossen werden.

Da diese Tests bei Schulklassen nicht immer auf Interesse stoßen, hagelt es manchmal Kommentare, die meist unter der Gürtellinie angesiedelt sind. Siehe dazu eine Auswahl auf "Bad Comments on Online-Tests in [werner.stangl]s Arbeitsblättern".

Bei den vorliegenden Daten werden einige Kontrollmechanismen angewendet, die dazu dienen, die Daten von möglichen Störeinflüssen zu bereinigen:

Ausschluss unvollständiger Datensätze, wenn etwa die freiwillig erbetenen demografischen Merkmale fehlen (bis auf den HALB-Test erfolgt die Kontrolle der Testdaten automatisch, da nur vollständige Datensätze übermittelt werden können).
Ausschluss einseitig oder musterähnlicher Datensätze, wobei diese innerhalb der Datenfelder durch Sichtprüfung erkennbar sind, aber auch durch Berechnung von Summenscores.
Ausschluss von mehrmals abgesendeten Datensätzen, was einerseits durch Fehlbedienung, andererseit auch durch Eigenheiten der verwendeten Interfaces zustandekommen kann.
Ausschluss aufgrund ungenügender Testzeit, die mit dem Datensatz übermittelt wird - wobei hier unter Umständen auch sorgfältig ausgefüllte Daten verloren gehen, da manche Browsereinstellungen die Berechnung der korrekten Zeit verhindern.

Beim 2008 eingerichteten Stressbelastungstest, der sehr gut angenommen wurde (in den ersten acht Monaten an die 18.000 verwertbare Testdatensätze), finden sich etwa ein bis zwei Prozent an Datensätzen, die auf Grund offensichtlicher Fehleingaben (80 bzw. 0 Punkte) ausgeschieden werden müssen. Es zeigt sich bei diesen "ProbandInnen" häufig in den Berufsangaben, dass sie diesen Test nicht Ernst genommen haben: Massenmörder, Versager, penner, Bananenrepublikaner, Adolf, Imperator, test-tester, stablerfahrer, cheff, Kloputzer, Hektiker, Täter, , Schweifler, Psyc, strassenpenner, Gott, betttest lieger, Hurensohnjäger, Nutte, sandler, stresspustel, Stresspustel, topmanager. Extrem schnelle Dateneingaben bestätigen bei diesen Testdaten, dass die Datensätze unbrauchbar sind.

Wie man aus Untersuchungen weiß, gibt es deutliche Kontexteffekte bei der Bearbeitung von Fragebögen. Pauls & Crost (2003, Philipps-Universität Marburg) zeigten, dass selbst kleinere situative Einflüsse eine Auswirkung auf die Bearbeitung von Fragebögen haben können. So füllten ProbandInnen einen Persönlichkeitstest in drei Bedingungen aus: einer anonymen Standardbedingung (keine Verfälschung), einer öffentlichen Bedingung, in der jemand anwesend war und den Probanden beim Ausfüllen zusah (unbewusste Verfälschung), und einer fake-good Bedingung, in der die Probanden explizit dazu aufgefordert wurden, sich positiv darzustellen (bewusste Verfälschung). Obwohl bei einer Nachbefragung nur sehr wenige Probanden ein verändertes Antwortverhalten in der öffentlichen Bedingung angaben, stiegen die Mittelwerte in sozial erwünschten Domänen signifikant an. In der fake-good Bedingung stiegen die entsprechenden Mittelwerte nochmals stärker an als in der öffentlichen Bedingung. Es wurde geprüft, ob das Antwortverhalten mit sozialen Erwünschtheitsskalen der Bereiche Selbsttäuschung und Impression Management zusammenhängt. Überraschenderweise korrelierte Selbsttäuschung stärker mit bewusster als mit unbewusster Verfälschung. Die Zusammenhänge mit IM dagegen fielen im Vergleich zur Standardbedingung in den beiden Verfälschungsbedingungen stark ab. Die oben beschriebenen Mittelwertsveränderungen im NEO-PI-R in einer für die Probanden unwichtigen Situation lassen vermuten, dass in der Praxis bei relevanten Tests die Effekte der sozialen Erwünschtheit noch stärker sein werden. Auch scheint ein verändertes Antwortverhalten nicht immer bewusst zustande zu kommen.

Die Online-Vorgabe führt allerdings auch zu einer Steigerung der Datenqualität, da die Befragten direkt ihre Antworten auf dem internetbasierten Fragebogen erfassen, sodass keine Übertragungsfehler entstehen können, wie sie etwa bei händischer Codierung und Dateneingabe nicht selten vorkommen.

Vergütung der Teilnahme und Gewinnspiele

Führt man eine Studie ohne Vergütung durch, bekommt man meist eine nur recht kleine, oft auch wenig heterogene Stichprobe. Möchte man eine breitgestreute Teilnehmerzahl, kommt man an Vergütungen (z.B. Gewinnspielen) nicht herum. Wenn man nun eine solche Umfrage im Internet verbreitet, stößt man jedoch allerorts auf Skepsis. Das liegt zum einen daran, dass Gewinnspiele und wissenschaftliche Forschung nicht zusammengehören sollten und zum Anderen werden durch die Vergütung Kontaktdaten von Versuchsteilnehmern abgefragt.

Kompatibilitätsprobleme

Ein nicht zu unterschätzendes Problem bei Online-Tests ist eine Selektion bzw. auch der Verlust von Daten durch die unterschiedlichen Browser-Versionen. Da alle hier auf diesen Seiten eingesetzten Testverfahren mit Javascript und Session-Cookies arbeiten, ist die Teilnahme an die Aktivierung dieser beiden in fast allen Browsern vorhandenen Funktionen gebunden. Aus teilweise falsch orientierten Sicherheitsbedürfnissen werden diese beiden Funktionen - die standardmäßig in allen Browsern aktiviert sind - von unerfahrenen userInnen deaktiviert. Zwar wird durch eine Abfrage und eine danach folgende Anleitung am Beginn des Tests versucht, bei abgeschaltetem Javascript diese Ausfallsquote zu reduzieren, doch überlesen einige diese Warnungen, was dazu führt, dass beim Ergebnisabruf keine Rückmeldung erfolgt bzw. in manchen Fällen nur ein unvollständiger Datensatz übertragen wird.

Das Abschalten von Session-Cookies führt zwar nur zu einem Verlust der automatischen Datenweitergabe an die Ergebnis- bzw. Vergleichsseiten der Testverfahren, was durch einen Hinweis, sich bei der Ergebnisausgabe die Daten zu notieren, versucht wird abzufangen, jedoch geht hier ein wesentlicher Aspekt der Interaktivität und damit der Vorteile von Inline-Tests verloren.

Hinzu kommt, dass in manchen Browsern veraltete Javascript-Implementationen laufen, was dazu führt, dass manche Funktionen nicht oder nur unvollständig ausgeführt werden und etwa die Sortierung der Berufsorientierungen im SIT nicht durchgeführt werden kann.

Literatur

Couper, Mick P. & Coutts, Elisabeth (2004) Online-Befragung. Probleme und Chancen verschiedener Arten von Online-Erhebungen. In Andreas Diekmann (Hrsg.): Methoden der Sozialforschung (S. 217-243). Wiesbaden: Verlag für Sozialwissenschaften.

Funke, Frederik (2010). Internet-based measurement with visual analogue scales: An experimental investigation [Internetbasierte Messungen mit visuellen Analogskalen: Eine experimentelle Untersuchung]. Dissertation in Fach Psychologie an der Mathematisch-Naturwissenschaftlichen Fakultät der Eberhard Karls Universität Tübingen.

Gräf, Lorenz (1997). Pretest von WWW-Umfragen. In D. Janetzko, B. Batinic, D. Schoder,,M. Mattingley-Scott & G. Strube (Hrsg), CAW-97 (S. 51-62). Freiburg: IIGBerichte.

Gräf, Lorenz (1999). Optimierung von WWW-Umfragen: Das Online Pretest-Studio. In Wolfgang Bandilla, Bernad Batinic, Lorenz Gräf & Andreas Werner (Hrsg.), Online research: Methoden, Anwendungen und Ergebnisse (S. 159 - 177). Göttingen: Hogrefe.

Hauptmann, P. (1999). Grenzen und Chancen von quantitativen Befragungen mit Hilfe des Internet. In Wolfgang Bandilla, Bernad Batinic, Lorenz Gräf & Andreas Werner (Hrsg.), Online research: Methoden, Anwendungen und Ergebnisse (S. 21-38). Göttingen: Hogrefe.

Roth, Dieter (2008). Empirische Wahlforschung. Wiesbaden: Verlag für Sozialwissenschaften.

Schonlau, Matthias, Fricker, Jr., Roland D. & Elliot, Marc N. (2002). Conducting Research Surveys via E-mail and the Web. Rand Documents.

Squire, Peverill (1988). Why The 1936 Literary Digest Poll Failed. Public Opinion Quarterly (52),125-133.

Standards zur Qualitätssicherung für Online-Befragungen (2001). Ausgabe Mai. Herausgegeben vonm Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V., dem Berufsverband Deutscher Markt- und Sozialforscher e.V. und der Deutschen Gesellschaft für Online-Forschung e.V.
WWW: http://www.joerghartig.de/doks-download/standards-ol-befragungen.pdf (03-04-30)

inhalt :::: nachricht :::: news :::: impressum :::: datenschutz :::: autor :::: copyright :::: zitieren ::::

navigation: