Loading AI tools
一個結果令生物的未來行為增加的心理學概念 来自维基百科,自由的百科全书
增强(英语:Reinforcement),台湾也称增强,是行为主义心理学中的一个重要概念,是关于理解和修正人的行为的一种学说。 心理学研究发现,人类或动物为达到某种目的,会于所处的环境下采取特定行为;当这种行为带来的某种反应或后果对他有利时,这种行为就会在以后重复出现,而该结果就称为“增强物”;反之亦然,当其行为会对他带来不利时,这种行为就自然减弱或消失,个体对行为结果所产生的后续反应,就是以操作性条件反射进行的。而由于“增强物”的适时出现,增加了个体以后在相同情形下重复这种行为的机率,这表示“增强物”对于个体的反应起了增强作用。此种增强作用,即称之为“增强”。
“增强”这一概念的提出源于美国心理学家爱德华·桑代克,后经约翰·布罗德斯·华生、克拉克·L·赫尔等人的发展、修订,到新行为主义代表人物伯尔赫斯·弗雷德里克·斯金纳达到了一定的理论高度并发扬光大。他们都认为增强作用是决定人和动物所作所为的关键因素,并可以用这种“正增强”或“负增强”的办法来影响行为的后果,从而修正其行为。
行为的增强有2种类型:
正增强,也称积极增强、正向增强发生于一件渴求中的事或物作为一种结果而呈现,而这一结果刺激了这一渴求。在进行某个行为之后,增加对象喜爱的(通常是愉快的)刺激,并使该行为的出现频率增加。在斯金纳的实验中,以食物或糖水做为刺激,经由老鼠按下杠杆的行为来供给食物和糖水,造成老鼠按下杠杆的频率增加。
在进行某个行为之后,减少对象厌恶的(通常是不愉快的)刺激,并使该行为的出现频率增加。在斯金纳的实验中,以噪音作为刺激,经由老鼠按下杠杆的行为来停止噪音,造成老鼠按下杠杆的频率增加。
辨别正向与负向是个重要的问题。举例来说,对一个非常热的房间而言,来自外界的气流是正向的,因为它带来了相对凉爽的空气;但是它也同时是负向的,因为它带走了原本的热空气。有一些增强物可以同时以正向和负向作控制,例如一个毒瘾者以吸毒来增加兴奋和摆脱戒毒症状。另一个例子是进食,进食增加了愉悦感同时移除了饥饿的感觉。直到现在,许多行为心理学家以不带对立性(Polarity)的增强和惩罚来包含所有的环境变化。
负向增强有两种形式:第一种是逃脱制约,指令人厌恶的刺激出现,而作出行为去减少这些厌恶的刺激,例如抓痒或按下闹钟的按钮。而另一种则叫回避制约,指在目标为了避免出现厌恶刺激的行为,例如为了避免饥饿而进食,或是为了避开塞车而改变路径。
回避学习(avoidance learning)是一种学习模式,指某种行为能够造成一些令人厌恶的刺激停止。例如在大太阳下遮住眼睛,可以避免接受刺眼的阳光。
惩罚是指用来减少、减慢、移除不想要的行为,这类技巧叫做行为减少器(英语:behavior decelerator)[2]:20。与增强相同的是,被惩罚的是行为而不是动物本身。只有知道一个刺激对于行为出现频率的效果时才能确知它是否为惩罚。
与增强一样,辨认一个惩罚不经常需要提到它的正向或负向。而两种的惩罚分别在引入一个新的事物,如责骂,而另一个移除已有的东西事物,如罚款。另外,虽然Skinner认为惩罚只是一个“短暂的压抑”(temporary suppression),即惩罚不是百分百相对于增强,但实验[4][5][6]却显示两种方法效果一样,最重要是施行即时性与一致性就可改变行为[2]:37。另外,某些行为心理学家认为惩罚是一个“初级过程”,也就是完全独立的学习现象,与增强有所区别。有些人认为它是负向增强的一种分类,创造任何一个造成回避惩罚行为(甚至不作反应)的状态可看成是一种增强。
在行为改变上,虽然惩罚与增强一样有效[7],但是惩罚亦带来不少副作用:
当动物所处环境中够多的变因被减少或是被控制时,他们在增强后的行为型态将明显的能够被预测。甚至当增强的速率适应于特定方法时,非常复杂的行为也能够被预测。增强程序是用来测定将被增强的反应(特定行为的单独出现)的计画。有两种极端情况,一种是连续增强,指增强所有反应;另一种是消弱,指没有反应被增强。
比率程序能够比间隔程序产生更高的反应频率。变化程序也比固定程序产生更高的反应频率。变化比率程序产生较高的反应频率,且对消弱有较大的抵抗力,赌博是变化比率程序最有代表性的例子。在固定比率程序中,在增强之后会有一段反应暂停时间,称为后增强暂停,在图表上呈阶梯状。固定间隔程序也有后增强暂停,但是在图表上呈现的是扇型。由于在已消逝的时间并没有增强刺激,因此对象学会了以平缓的速率反应。如果生物个体是一个固定比率程序的对象,会有一个为获得增强的行为的次数的瞬间增加,然后生物个体被观察到在增强来到之前有一段周期性的暂停。这种现象被称为比率弯曲,对照在图形上的顺序为后增强暂停、比率上升、增强。
比起每做一个行为就有奖励,与持续性增强(continous reinforcement)不同的是,间歇性增强(intermittent)指每一个反应都不一定有结果。例如,在教育应用中,当目标学生学到想要他们做的行为后,老师可以偶尔称赞他。与赌徒上瘾的逻辑相同,因为透过不能确定何时有回报,时不时的回报会鼓励赌徒,令该行为更难消失 (resistant to extinction)。目标习惯了有时会没有奖励(赌徒则没有中奖)但不是永远没有机会(会赢钱的)。换言之,持续性增强的效果虽然快,但是快来也快去,所习得的行为也很快。
考虑消弱的影响,不完全的增强程序比起连续性的增强程序有较大的抵抗力,这种现象称作不完全增强消弱效应(英语:Partial reinforcement extinction effect,简称PREE)。比率程序则比间隔程序更具抵抗力[24],而变化程序也比固定程序更有抵抗力。假说如下:
并行程序(英语:Concurrent schedule)指多个相对的(alternative)增强程序同时存在,程序间有不同的反应与增强物。试想像一个人在家庭与事业之间要取得平衡,当他投放更多精力在其中一样会有相应的正面回报(如维系更多时间在家庭上则与家人关系更好,或专攻事业就有更多财政回报[25])。在匹配律[26]中,当面对同时多个可行的选择时的可能反应(自由意志),如在理查德·赫恩斯坦的实验中白鸽要去按两个其中一个按钮,但按多久而带来食物都不同,而他则研究当有两个增强时,如何分配自己的反应是两者上[27]。若某增强的回报比另一个多,当然目标会根据回报调整自己的反应策略[28]。这个方程就是用来评估反应的偏好。这也可以预测小孩与父母的较量[29]。像经济学中的代替品,除了所施放的增强物,现实中亦可能有多个增强物影响对目标增强的果效(英语:Reinforcement relativity)。
其中立即性和附带性能够以神经化学来解释,当生物个体受到增强刺激,则大脑中的多巴胺通道将被活化,这些通道组成的网路释放短暂的多巴胺脉冲到许多树突,因此散发增强刺激讯号到突触后神经元[41]。造成刚被活化的突触对输出讯号的感应加强,因此造成增强刺激之前的行为的出现机率增加。在统计学上显示对行为的增强刺激成功。然而当增强刺激的立即性和附带性减少,多巴胺对突触的影响能力也会减少。
这些增强物主要用来
塑型(英语:Shaping)影响了增强的成功,增加训练者所要求的精确的近似反应[2]:30。例如为了训练一只老鼠按下杠杆,可将身体转向杠杆作为第一个步骤,并增强这个动作。在训练过程中,对象的所增强的行为会愈来愈接近训练者的要求[47]。譬如跑步选手最初训练只有0.4个单位速度,第二次去到0.8个单位速度,第三次0.7,第四次有0.6,第五次0.9⋯⋯不断训练后最终有1个单位速度。在改变病患行为也有应用,好像一个有严重呼吸病的8岁儿童只肯戴上口罩只有5秒,在不断鼓励下,他最终戴上了40秒[48]。
连锁(英语:Chaining)将分散的几个行为连结成一个系列(塑型只处理一个行为),每一个行为造成的结果,都是对上一个行为的增强,与对下一个行为的刺激[49]。有许多连锁的教导方式,如前进连锁,从连锁的第一个行为开始;后退连锁,从最后一个连锁开始;与全作业连锁(total task chaining),将所有的行为从头到尾教完,而不是以一系列的步骤。以打开一个被锁的门为例,首先将钥匙插入,然后转动,然后门打开。完成前一个要求,能作差别性刺激物(Sd)来让目标知道自己完成该步骤。
三者差异如下[2]:19:
增强的理论被批评为循环论证。争论点在于这种循环定义:“增强物是造成增强效果的东西,而有增强效果的东西是增强物。”而薛菲尔德(F. D. Sheffield)建议定义改为“附带在反应上的完成行为(consummatory behavior contingent on a response)”,但这种定义尚未被心理学广泛使用。而有些同行亦批评其理论多是事后孔明,不是科学界想要的“预测”[50]。另外,增强理论暗示了人们只能被动地回应环境的变化[51],忽略人的创意、动机与社会因素的影响[52]。这个理论也不能很好地解释人的牺牲自己而令其他人得益的利他行为。
1920年代俄国心理学家巴甫洛夫可能是首先在行为方面使用“增强”一词的人,但是他保守地使用俄语中近似的词语,且用这一词语来指增强一个已学习但较弱的反应。他的这一用法与今天选择并增强新行为的意义不同。巴甫洛夫也使用了俄语中的消弱(extinction)一词作近似于现今的使用。
在一般大众的使用中,正向增强经常当作报偿的同义词来使用,且针对人而不是行为。负向增强则经常被一般人,甚至非心理学领域的社会学者用来指惩罚。虽然与专业上的用法不同,但是斯金纳在他1938年的书中如此使用该词语首开先河。在1953年,他才跟随其他人,减少了厌恶刺激的含义的使用。
在学术界也有学者[53]认为正向与负向这个说法有点难去判断一个刺激物是否移除还是提供。例如,Iwata则问了一条问题“温度变化中,是提供冷气,还是移除热气?”[54]:363。换言之,增强可以因为改变前的情况代替改变后的情况,令到某行为跟随这变化而增强。
现实中有不少的例子应用了增强与惩罚这个操作制约原则,例如以下:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.