Operante und instrumentelle Konditionierung - Die behavioristischen Ansätze

Siehe dazu auch

Operante Konditionierung bei Skinner

Videos zur operanten Konditionierung

Das Konzept der Verstärkung und der Bestrafung

Anwendung der operanten und instrumentellen Konditionierung

Operante Konditionierung bei Hunden mit einem Lobverstärker

Programmierter Unterricht

Die Grundbegriffe des Operanten Konditionierens - ein Programmierter Unterricht

Das Scheitern des Programmierten Unterrichts

Die Arbeitsblätter empfehlen

Das klassische Konditionieren kann eine Reihe von Lernphänomenen nicht erklären. Dazu gehören insbesondere

das Entstehen neuer Verhaltensweisen, die bisher nicht im Verhaltensrepertoire eines Individuums waren (z.B. Fahrradfahren)
Verhaltensänderungen, die unabhängig von vorausgehenden Stimulusbedingungen sind - das trifft wohl für das meiste Verhalten zu.

Skinner, der wichtigste Vertreter des operanten Konditionierens unterscheidet zwei Typen der Konditionierung:

Konditionierung Typ S(timulus): Damit ist das KK gemeint, bei dem bereits vorhandene Reaktionen auf neue Reizbedingungen konditioniert werden, die diese Reaktionen dann fast automatisch auslösen (Lernen neuer Auslösebedingungen). Skinner spricht auch von respondentem Konditionieren.
Konditionierung Typ R(eaktion): Beim Reaktionslernen geht es um das Entstehen und Verändern willkürlich und freiwillig ausgeübter Verhaltensweisen aufgrund von Reizen, die dem Verhalten folgen (Verstärkung). Ein Großteil menschlichen Verhaltens ist willkürlicher Natur und tritt auch auf, ohne dass bestimmte Reize es auslösen. Es ist jedoch wesentlich von den Konsequenzen abhängig, die ihm folgen. Es wird als operantes Verhalten bezeichnet, weil es in der Umwelt "operiert" bzw. weil es selbst etwas bewirkt.

Das operante Konditionieren besteht in der Beeinflussung der Auftretenswahrscheinlichkeit operanten Verhaltens durch bestimmte Verhaltenskonsequenzen. Operantes Lernen kann auch als Lernen neuer Verhaltens-Folge-Beziehungen verstanden werden. Unter Operantem Konditionieren versteht man auch das Lernen durch Versuch und Irrtum. Es läßt keine unmittelbaren Auslöser erkennen, bewirkt aber eine Reaktion in der Umwelt. Es wird durch seine Folgen gesteuert.

Das Grundprinzip ist das Bekräftigungslernen. Durch die planmäßige Gestaltung der Folgen einer Handlung wird die Auftretenswahrscheinlichkeit des Verhaltens verändert. Je nach Art der Folgen erhöht oder erniedrigt sich diese. Verstärker sind kontingent auftretende Folgen.

Es gibt drei wichtige Schritte:

eine wählbare Reaktionsklasse
eine verstärkende Verhaltenskonsequenz
eine Kontingenz zwischen Verhalten und Konsequenz

Auch beim operanten Konditionieren kann eine Stimuluskontrolle vorhanden sein. Z.B. kann die Handlung ausgelöst werden im Beisein bestimmter Stimuli und bei anderen Stimuli wird sie nicht ausgeführt. Die Stimuli haben daher nur Hinweisfunktion.

Thorndike formulierte das "Gesetz der Wirkung", das den Begriff "Lernen am Erfolg" beinhaltet. Zufällige Aktionen, die zu einer positiven Konsequenz für das Individuum führen, werden seiner Meinung nach selektiert und öfter eingesetzt. Für ihn war die Verknüpfung von Reiz und Reaktion, nicht einfach nur durch Wiederholung und Kontiguität vorhanden, sondern ebenfalls an eine Verstärkung gebunden. Diese Verstärkung bezieht sich auf die subjektive Wahrnehmung des Lernenden. Wenn die Verknüpfung von Reiz und Reaktion einen Zustand der Befriedigung (verstärkender Effekt) für das Individuum darstellt, wird die Verknüpfung gestärkt. Im Gegensatz dazu zieht der Effekt einer Nichtbefriedigung eine Schwächung der Verknüpfung nach sich.

Burrhus Frederic Skinner führte in den USA Tierversuche mit Tauben und Ratten durch. Auch dazu wurde eine künstliche Experimentalsituation entwickelt, die Skinner-Box:

Skinner-Box Operante und instrumentelle Konditionierung

Siehe dazu im Detail

Operante Konditionierung bei Skinner

Das Konzept der Verstärkung und der Bestrafung

Unter einem Verstärker versteht man jeden dem Verhalten folgenden Stimulus, der die Verhaltenshäufigkeit steigert. Bei der Bestrafung verhält es sich umgekehrt: Unter einer Bestrafung versteht man jeden dem Verhalten folgenden Stimulus, der die Verhaltenshäufigkeit mindert. Auch Verhaltensweisen können als Verstärker bzw. Bestrafung fungieren.

Primäre Verstärker/Bestrafung hängen mit biologischen Bedürfnissen zusammen (z.B. Futter, E-Schock). Sekundäre Verstärker entstehen durch Koppelung (z.B. durch klassische Konditionierung!) mit primären Verstärkern (z.B. zu Essen geben + Lächeln). Sekundäre bzw. soziale Verstärker (z.B. Geld, soziale Anerkennung) spielen eine größere Rolle als primäre Verstärker. In vielen Fällen führen sie zu primärer Verstärkung oder können gegen eine solche eingetauscht werden. Sekundäre Verstärker sind leichter und unmittelbarer einsetzbar.

Wesentlich für die Verstärkung ist die Kontingenz, d.h. es muß eine Korrelation zwischen Verhalten und Verstärker bestehen. Es darf keine Verstärkung erfolgen, wenn das Verhalten nicht auftritt!

Es gibt 4 Arten von Verstärkung und Bestrafung:

Positive Verstärkung: Durch einen Verstärker kommt es zu einer Erhöhung der Auftretenswahrscheinlichkeit des Verhaltens. Folgt dem Verhalten ein positives Ereignis (Verstärker), kommt es zu einer positiven Konsequenz. Als Beispiel dafür wäre ein Kind, das jedes Mal, wenn es sein Zimmer aufräumt, gelobt wird. Als Konsequenz wird dieses Kind jetzt öfter sein Zimmer aufräumen. Weitere Beispiele: Lernverhalten - Lob; Uni-Tassen im Automaten abgeben - Erhalt eines Bons.
Negative Verstärkung: Hier folgt auf das Verhalten ein Ausbleiben eines unangenehmen Ereignisses (Verstärker). Ein Beispiel hierfür wäre die Drohung der Eltern ein Kinder-Fest abzusagen, sollten die Hausaufgaben nicht gemacht werden. Diese Drohung wird nicht verwirklicht, weil das Kind seine Hausaufgaben erledigt. Weitere Beispiele: Lernverhalten - kein Tadel des Lehrers oder keine ständigen Ermahnungen der Eltern mehr; Auftreten von Übelkeit vor einer Prüfung - Prüfung kann nicht absolviert werden, somit kommt es zu einer entlastenden Verstärkung (Auftreten von Übelkeit wird verstärkt durch Ausbleiben eines unangenehmen Ereignisses).
Vor allem Vermeidungsverhalten wird durch negative Verstärkung aufrechterhalten: In Gefahrensituation (z.B. hohes Gebäude) tritt Vermeidungsverhalten auf (Vermeiden hoher Gebäude) und wird durch Ausbleiben von Angstzuständen verstärkt. Dadurch wird verhindert, dass die Angstreaktion gelöscht werden kann.
Bestrafung durch aversive Reize: In dieser Form des Lernens folgt dem Verhalten ein unangenehmes Ereignis (Bestrafung). Ein Kind bekommt aufgrund seines schlechten Benehmens zu seinem Bruder das Verbot zu Fernsehen. Es kommt zum Entzug eines positiven Reizes. Bei zu aversiver Bestrafung kann es zu klassischer Konditionierung kommen, so dass z.B. der Lehrer oder ein Elternteil zu einem CS wird, der negative Emotionen auslöst. Solche Nebenwirkungen sollten bei Bestrafung vermieden werden. Entscheidend für die Wirkung von Bestrafung ist u.a., dass ein Alternativverhalten zur Verfügung steht, das belohnt wird.
Bestrafung durch Entziehung positiver Reize (Löschung): Auf ein Verhalten folgt weder ein unangenehmes noch ein angenehmes Ereignis. Ein Schüler benutzt im Unterricht oft das Wort "Scheiße" Der Lehrer ignoriert diesen Begriff und es kommt somit zur Löschung. Der Schüler kann damit keine Aufmerksamkeit erregen. Weitere Beispiele: Fehlverhalten - "Liebesentzug", Entzug bereits versprochener Belohnungen, etc.

Auch beim klassischen Konditionieren kann man von Verstärkung sprechen. Der Verstärker beim operanten entspricht dem UCS beim klassischen.

Diskriminative Stimuli

Auch beim operanten Lernen können Reize eine Rolle spielen, die dem Verhalten vorausgehen. Diese Reize können anzeigen, ob einem bestimmten Verhalten eine bestimmte Verstärkung folgen wird (positiver diskriminativer Reiz) oder nicht (negativer diskriminativer Reiz). Wenn ein bestimmtes Verhalten von diskriminativen Reizen beeinflusst wird, dann ist das Verhalten unter "Stimuluskontrolle". Experimentell kann man das so erzeugen, dass man ein Versuchstier z.B. nur dann für das Drücken eines Hebels belohnt, wenn vorher ein Licht aufleuchtet. Äußerlich kann dann beobachtet werden, dass das Licht das Hebeldrücken offenbar auslöst. In Wirklichkeit führt das Licht jedoch dazu, dass in dieser Situation für das Hebeldrücken eine Belohnung erwartet wird. Die diskriminativen Reize rufen das Verhalten also nicht hervor. Sie haben lediglich einen Informationswert bezüglich zu erwartender Verstärkungen.

Es gibt im Alltag viele Beispiele für Verhalten, das unter Stimuluskontrolle ist (z.B. der Anblick einer Zigarettenschachtel scheint oft unmittelbar den Griff zur Zigarette auszulösen, tatsächlich führt der Anblick jedoch zu der Erwartung eines belohnenden Ereignisses wenn der Griff zur Zigarette bzw. das Rauchen der Zigarette erfolgt).

Im Rahmen seiner Untersuchungen hat Skinner verschiedene "Verstärkungspläne" erarbeitet:

Für die Erhaltung des gewünschten Verhaltens ist eine konsequente Reaktion auf das gezeigte Verhalten nötig (Lob, Strafe etc.)
Wird die Konsequenz nur sporadisch (bzw. partiell) ignoriert, verstärkt sie u.U. das unerwünschte Verhalten.
Wird das gezeigte Verhalten ignoriert, führt dies zur dessen Extinktion (K^o)
Wenn der Operand sein Verhalten stabilisiert hat, kann man zu einer partiellen Verstärkung übergehen (dann ist die Gefahr der Löschung gering)

Weiterhin ist wie auch bei Pawlow eine Kontiguität zwischen dem gezeigten Verhalten und der Konsequenz notwendig. Das Kind muß z.B. erkennen können, dass die Strafe sich auf ein spezifisches unerwünschtes Verhalten bezieht. Wenn dem nicht so ist, wächst die Gefahr einer Generalisierung.

Typischer Verlauf einer Konditionierung

Weitere Grundbegriffe des operanten Konditionierens

Vermeidung

Bei dem Vermeidungstraining erhält ein Organismus einen aversiven Reiz, wenn er eine bestimmte Reaktion nicht ausführt.

Extinktion von Vermeidungsantworten

Beim "flooding" ist der Organismus nicht in der Lage die bestimmte Reaktion auszuführen, um den aversiven Reiz zu vermeiden. Er befindet sich in der unabgenehmen Lage und zeigt Erregung. Wenn allerdings nach einiger Zeit kein aversiver Reiz erfolgt, obwohl er die Reaktion nicht ausgeführt hat, sinkt die Erregung.
Eine andere Möglichkeit wäre die Verabreichung des aversiven Stimulus unabhänig vom Verhalten des Individuums.

Positive Verstärkung

Wenn ein Organismus ein Verhalten zeigt und darauf hin eine angenehme Antwort folgt, so wird dieses Verhaltens öfters gezeigt.

Negative Verstärkung

Nach Ausführen eines Verhaltens sinkt die Wahrscheinlichkeit für das Auftreten einer aversiven Antwort.

Das Modell des operanten Konditionierens kennt drei Verlernenmechanismen:

Extinktion ist, wenn auf einen Operant lange keine Verstärkung erfolgt.
Kontrakonditionierung ist, wenn mit der unsprünglichen Reaktion unvereinbare Antworten auftreten, die allmählich an die Stelle der früheren Reaktion treten soll.
Bestrafung ist definiert als die Darbietung aversiver Stimuli.

Weitere Quellen
https://www.stangl-taller.at/TESTEXPERIMENT/experimentbspconditioning.html (01-01-22)
http://www.uni-bielefeld.de/idm/personen/shorsman/lerntheorie.html (01-01-22)
http://www.psychologie.uni-bielefeld.de/ae/AE12/LEHRE/Lernen.htm (01-01-22)
Edelmann, W. (1995). Lernpsychologie. Weinheim: Psychologie-Verlags-Union.

inhalt :::: nachricht :::: news :::: impressum :::: datenschutz :::: autor :::: copyright :::: zitieren ::::

navigation: