操作制約 - Wikiwand

操作性条件反射（英语：operant conditioning）是一种由刺激引起的行为改变的过程与方法，又称为工具性条件反射（instrumental conditioning）或工具学习。操作性条件反射与经典条件反射（classic conditioning）有所不同，操作性条件反射的行为是个体“主动”改变环境的行为，当行为得到奖励或惩罚时出现刺激，反过来控制这种行为；而经典条件反射则是使个体被动接受刺激并产生反应的作用。

20世纪对动物学习的研究由这两种学习的分析主导^[1]，它们仍然是行为分析的核心。

桑代克的效果律

操作性条件反射的第一位研究者是爱德华·桑代克（1874-1949），桑代克观察他的猫试图逃出他所设计的迷箱（puzzle box）的行为^[2]。第一次猫花了很长时间才从箱子里逃出。有了经验之后，无效的行为出现频率逐渐减少，而成功的行为出现频率则逐渐增加，此外猫成功逃出迷箱所用的时间也越来越少。在桑代克的效果律中解释，成功的行为产生满足的结果，而这种结果经由经验被“印入”（stamped in），使得成功行为的出现增加。失败的行为则产生厌恶结果，因而被剔除（stamped out），造成失败行为的出现频率减少。简单的说，某些结果能够强化行为，而某些结果能够减弱行为。通过绘制逃脱与试验的曲线，他也画出了知名动物学习曲线^[3]。

通过卓有成效的研究，桑代克总结了“试误说”的三大定律：

效果律^[4]^:392：试误学习的过程中，如果其他条件相等，在学习情境作特定的反应之后能够获得满意的结果时，则其联结就会强化；而得到烦恼的结果时，其联结就会削弱。
练习律：在试误学习的过程中，任何刺激与反应的联结，一旦练习运用，其联结的力量就逐渐增大；如果不运用，则联结的力量会逐渐减小。
准备律：在试误学习的过程中，当刺激与反应之间的联结，事前有一种准备状态时，实现则感到满意，否则感到烦恼；反之，当此联结不准备实现时，实现则感到烦恼。

应该说明的是，虽然“尝试一错误”学习模式是从动物实验中抽象概括出来的，但它对于人类学习来说，仍有很大的借鉴意义。

斯金纳

伯尔赫斯·弗雷德里克·斯金纳（1904-1990）被称为操作性条件反射之父，他的作品在相关主题中被频繁引用。他1938年的著作《有机体的行为:一种实验分析》（The Behavior of Organisms: An Experimental Analysis）^[5]，开启了他对操作性条件反射及其在人类和动物行为中应用的终身研究。斯金纳跟随恩斯特·马赫的观点，拒绝了桑代克提到的不可观察的心理状态，如满足，并在可观察行为及其同样可观察的后果的基础上进行分析。^[6]

斯金纳认为，经典条件反射过于简单化，无法用来描述像人类行为一样复杂的东西。他认为，操作性条件反射能更好地描述人类行为，因为它检验了有意的行为的原因和影响。

为了实施他的实证研究法，斯金纳发明了操作性条件反射室（operant conditioning chamber），或“斯金纳箱”，将鸽子和大鼠等受试者在隔离在内，并令其接受精密控制的刺激。与桑代克的谜箱不同，这种设计允许受试者做出一两个简单、可重复的反应，这种反应的比率成为斯金纳的主要行为测量。^[7]另一项发明，累积记录器，能产生图形记录，从中可以估计出其反应比率。这些记录是斯金纳和他的同事用来探讨各种强化程序反应比率的主要数据。^[8]强化时间表可以定义为“根据某些明确规则向生物体提供强化的任何程序”。^[9]反过来，时间表的影响成为了斯金纳发展他对操作性条件反射的基本发现。他还利用了许多不太正式的人类和动物行为观察。^[10]

斯金纳的许多著作都致力于将操作性条件反射应用于人类行为。^[11]1948年，他出版了《桃源二村（英语：Walden Two）》，这是一个围绕他的条件反射原则组织的一个和平、快乐、高效生产的社区的想象。^[12]1957年，斯金纳出版了《言语行为（英语：Verbal Behavior (book)）》^[13]，将操作性条件反射的原则扩展到语言，这种人类行为的形式在以前一直是由语言学家等人以完全不同的方式分析的。斯金纳定义了新的功能关系，如“mands”和“tacts”来捕捉语言的一些实质，但他没有引入任何新的原则，而是将言语行为视为和其他行为一样的，由其结果控制的行为，其中结果包括听众的反应。

概念与方法

操作性条件反射

强化
增加行为

惩罚
减少行为

正向强化
行为做出后
提供想要的东西

负向强化
行为做出后
移除不想要的东西

正向惩罚
行为做出后
提供不想要的东西

负向惩罚
行为做出后
移除想要的东西

改变行为：强化、惩罚与消弱

斯金纳（1904-1990）以桑代克的理论作为基础，建立了关于强化、惩罚与消弱的详细的操作性条件反射理论，并发明了operant conditioning chamber（英语：operant conditioning chamber），一个实验箱来高度控制目标动物的学习行为。强化（reinforcement）和惩罚（punishment）两种刺激是操作性条件反射的核心思想，另外消弱（extinction）指的是没有产生作用的刺激。强化、惩罚或是消弱不但能够使用在实验室中，也能够用来形容包括人类以外其他动物的自然环境。

操作性条件反射与固定行为型态

斯金纳所建构的操作性条件反射理论，与诺贝尔奖得主康拉德·劳伦兹所提出的固定行为型态（fixed action patterns，FAPs）或本能行为有所对比。这些斯金纳所说的行为，存在外在的操作性条件反射变数，在进行行为的广泛深入分析时是需要仔细思考的。

在狗的训练中，利用觅食的欲望来对工作犬和侦查犬等进行训练。这种来自于狩猎本能的固定行为型态的刺激，是产生非常困难但一致的行为的钥匙刺激，且在大多数的例子里，并不包括操作、古典或其他条件反射^{[来源请求]}。在固定行为型态的演化塑造过程中，这些型态在长久的时间由于生存机制而维持稳定，也就是操作性条件反射。

根据操作性条件反射的规律，任何一个在一段时间内一致回馈的行为，将会在间歇性的对反应强化，并导致更稳定的反应速率，且对消弱有较大的抵抗力的行为更快的被消除。因此，以一只侦查犬来说，任何对寻找指令作出的正确的行为，必须总是被以玩具或球的回馈来对反应作初始的获取。之后则是衰减的过程，强化会被"减小"，也就是并非每次的反应都被强化，使狗进入间歇性强化的行程，使牠对没有强化的情况有更强的抵抗力。

然而，有些训练者现在只利用狩猎欲望来训练宠物狗，并发现效果狗对训练的反应比只根据斯金纳的操作性条件反射更好^{[来源请求]}。显示本能在游戏时的支配^[14]。

消弱-诱导变异

消弱发生时，在不间断的执行动作之后，会导致欲消除行为确实的减少，但在短期内对象可能会产生消弱突然爆发（extinction burst），这种情形经常发生在消弱刚开始的时候。消弱突然爆发会使行为的出现频率在短时间内暂时性的增加，之后欲消除的行为会开始减少。

举例而言，某实验中利用食物强化一只鸽子敲啄按钮的行为，每当牠敲啄按钮，将会出现一些能吃的种子作为强化物，因此鸽子饥饿时，便会敲琢按钮以获得食物。然而当某一次敲啄按钮之后食物不再出现，这只鸽子将会再试着敲啄一次按钮，若是食物仍未出现，牠将会一次、一次又一次的敲啄...。当这种疯狂的行为依然无效的时候，鸽子就会减少敲啄的频率。这种消弱突然爆发（extinction burst）行为拥有演化上的优势，因为在自然界中，动物的行为并非绝对的附带强化刺激，一次失败之后，牠们有可能在多试一次之后确实得到强化。因此这些动物比起其他轻易放弃的动物更有生存优势。

消弱-诱导变异（Extinction-induced variability）扮演类似的角色。当消弱开始，改变的并非只有行为的频率增加，行为的改变也会反映在反应形（response topography、反应的型式）上。对象会一步一步的稍微改变他们的表现，这些改变可以包括特殊的动作、力道的大小、和行为作用时间的小小改变等等。成功的行为变化将会被保留，失败的行为变化则会渐渐减少。在正态分布中，水平线方向表示某行为可能的变异，垂直线方向表示某状态下的行为出现频率。当一个行为出现在分布图的中央（出现频率最高）时，表示在此动物的经验中，这种行为变异最能有效的产生强化刺激。

回避学习

回避训练属于一种负向强化的安排。对象经由所厌恶的刺激而终结或阻止某些反应。

代表性实验

Solomon和 Wynne使用Shuttle Box来实验^[15]。Shuttle Box是^[16]^[17]一个实验箱子分成两个房间，其中一间地面会通电，目标要学会离开 (shuttling) 原本房间来避免电击

回避学习的双因子理论

这个理论来自于对辨别回避学习的解释，并假设有两种过程发生。辨别回避学习 (discriminated avoidance learning) - 新的刺激（如光线或声音）出现之后，发生某个令人厌恶的刺激如惊吓或电击，两者类似经典条件反射中的条件反射刺激（CS）和非条件反射刺激（US）。当动物表现操作反应时，各个带有CS的US被移除。在第一次试验（称作逃脱试验）中，动物会经常经验到CS和US，表现出操作性行为以终结令人厌恶的US。同时动物将学习到在CS发生的时候表现某些行为能够使US的出现被阻止。例如Miller一个黑白双房间实验箱中，老鼠学懂要按制及推轮子来开启白房间的门来逃脱至黑房间^[18]，这种学习被称为辨别回避学习。

恐惧的经典条件反射(classical conditioning of fear) - 在第一个训练的试验中，生物个体经历了条件反射刺激（CS）和厌恶的非条件反射刺激（US）。理论假设经典条件反射通过CS与US的同时出现参与这个试验，因为对于US自然而然的厌恶，使得CS能够引起条件反射情绪反应（conditioned emotional reaction、CER），也就是恐惧。在经典条件反射中，CS附带厌恶的US出现使得生物个体进行的行为被中断。
产生操作反应并得到减少恐惧的强化(reinforcement of the operant response by fear-reduction) - 由于第一个过程，CS代表了厌恶的US，通过引起恐惧使本身变成一个厌恶的刺激，生物个体产生操作反应以减少这种不愉快的情绪。生物个体学习到在CS出现时进行某个反应能够终结CS带来的厌恶的内部反应。一个重要的观点在于"回避"并无法完全的描述生物个体的行为，他们不是"避开"厌恶的US；而是逃离由CS所造成的厌恶的内在状态。

一个有关训练动物的操作性条件反射训练观点是使用塑型（shaping），强化近似成功的行为，就像连锁一样。

回避学习的单因子理论

自由-操作回避学习 (free-operant avoidance learning)- 在这种实验类型里，没有不连续的刺激被当成厌恶刺激的发生讯号使用。也就是说，厌恶刺激（如惊吓）的表现与明确的警告刺激分开。
safety signal hypothesis，目标不只逃避惊吓，而是去追求安全讯号。安全讯号亦可压抑惊吓，从而强化新的行为，如逃走。
Species-Specific Defense Reactions (SSDRs)，指动物天生的逃脱反应。
认知理论，来解释预期如何影响逃脱反应^[19]。

两种重要的时间间隔决定回避学习的速率，

惊吓-惊吓-间隔（S-S-interval），这是成功表现惊吓的经过时间（除非操作反应表现）
反应-惊吓-间隔（R-S-interval），这是操作反应在没有惊吓被传递前的的时间长度。也就是动物在没有惊吓的状态下表现操作反应的时间。

习得性失助

因为持续不能离开该环境，而目标降低学习其他方法的能力。影响因素有^[20]：

动机原因，不想再学新的方法逃脱
想法原因，即使学其他方法也不一定能逃脱而不如不学
情感原因，该环境实在太痛苦
控制原因，目标能否有方法去终止该痛苦刺激物
预测原因，目标能否有方法得知痛苦刺激物来的事机

避免习得性无助，可以通过：

immunization，如果一开始目标能控制痛苦刺激物，之后较不受不能控制的事情所影响。在教育上，McKean建议老师可以一开始给一些较易完成的功课，学生们就有更多自信心去继续课程^[21]。
Learned optimism（英语：Learned optimism）^[22]

神经科学与操作性条件反射的关系

罗斯提·理查生（Rusty Richardson）和马龙·德伦（Mahlon deLong）首先找出关于条件反射刺激反应的神经元^[23]^[24]。他们发现将乙酰胆碱释放到大脑皮质的基底核神经元，能够在条件反射刺激或是条件反射刺激消失的回馈之后被短暂活化。这些神经元在正向和负向强化时被活化，并且在一些皮质区域产生突触可塑性^[25]。

证据并显示多巴胺（dopamine）也同时被活化。多巴胺通道只有正向回馈，非造成厌恶的强化，且在额叶皮质区域有较高的浓度。有所不同的胆碱（cholinergic）投射（projections）则在后叶，如视觉皮质区，也有作用浓度。

参见

参考文献

Loading content...

外部链接