强化 (英语:Reinforcement ),台湾也称增强 ,是行为主义 心理学 中的一个重要概念,是关于理解和修正人的行为的一种学说。
心理学研究发现,人类或动物为达到某种目的,会于所处的环境下采取特定行为;当这种行为带来的某种反应或后果对他有利时,这种行为就会在以后重复出现,而该结果就称为“强化物”;反之亦然,当其行为会对他带来不利时,这种行为就自然减弱或消失,个体对行为结果所产生的后续反应,就是以操作性条件反射 进行的。而由于“强化物”的适时出现,增加了个体以后在相同情形下重复这种行为的概率 ,这表示“强化物”对于个体的反应起了强化作用。此种强化作用,即称之为“强化”。
此条目介绍的是心理学理论。关于物种形成的机制,请见“
华莱士效应 ”。关于热带气旋的强化,请见“
快速增强 ”。
“强化”这一概念的提出源于美国心理学家爱德华·桑代克 ,后经约翰·布罗德斯·华生 、克拉克·L·赫尔 等人的发展、修订,到新行为主义 代表人物伯尔赫斯·弗雷德里克·斯金纳 达到了一定的理论高度并发扬光大。他们都认为强化作用是决定人和动物所作所为的关键因素,并可以用这种“正强化”或“负强化”的办法来影响行为的后果,从而修正其行为。
行为的强化有2种类型:
白鸽也是常用来实验的动物之一。实验者可提供谷壳(Grain)作为强化物。
正强化, 也称积极强化、正向强化发生于一件渴求中的事或物作为一种结果而呈现,而这一结果刺激了这一渴求。在进行某个行为之后,增加对象喜爱的(通常是愉快的)刺激,并使该行为的出现频率增加。在斯金纳 的实验中,以食物或糖水做为刺激,经由老鼠按下杠杆的行为来供给食物和糖水,造成老鼠按下杠杆的频率增加。
例一:老鼠按下一个按钮会得到奖励,因而老鼠更频繁地按下按钮,越来越多的奖励增加了其按下按钮的次数,因而正强化了其按按钮的行为。
例二:女儿收拾玩具则父亲给糖,如果女儿确实收拾玩具因而变得更勤快了,则糖是正强化物,正强化了收拾东西的行为。
例三: 公司依照员工销售业绩多少进行对应奖励,业绩高则奖励多,员工因此销售更勤快、更高效,则雇主收到正强化的效用。[ 1] :253
例四:孤独症儿童在与别人沟通时,眼睛看着别人就说:“做得好”。
在进行某个行为之后,减少对象厌恶的(通常是不愉快的)刺激,并使该行为的出现频率增加。在斯金纳的实验中,以噪音作为刺激,经由老鼠按下杠杆的行为来停止噪音,造成老鼠按下杠杆的频率增加。
例一:父母反复唠叨叫孩子打扫卫生后,孩子为了避免前述情况的发生而打扫卫生。此处,父母的唠叨是孩子想要避免的事件,因而负强化了孩子打扫卫生的行为。
例二:一个人用某品牌止痒软膏止蚊子叮咬痒,若止痒效果好,则此人更有可能继续购买使用该软膏,蚊子叮咬引起的瘙痒则是其中的负强化物,负强化了其购买行为。
例三: 公司规定员工布置的业绩进度如在周五前完成则可在周六休假。周六还要上班这一结果是负强化物,是大家所不愿意见到的,因而促进了公司的提升,这一过程则为一个负强化的过程。[ 1] :253
抓痒是一种负向强化 辨别正向与负向是个重要的问题。举例来说,对一个非常热的房间而言,来自外界的气流是正向的,因为它带来了相对凉爽的空气;但是它也同时是负向的,因为它带走了原本的热空气。有一些强化物可以同时以正向和负向作控制,例如一个毒瘾 者以吸毒来增加兴奋和摆脱戒毒症状 。另一个例子是进食,进食增加了愉悦感同时移除了饥饿的感觉。直到现在,许多行为心理学家以不带对立性(Polarity)的强化和惩罚来包含所有的环境变化。
负向强化有两种形式:第一种是逃脱制约 ,指令人厌恶的刺激出现,而作出行为去减少这些厌恶的刺激,例如抓痒或按下闹钟的按钮。而另一种则叫回避制约 ,指在目标为了避免出现厌恶刺激的行为,例如为了避免饥饿而进食,或是为了避开塞车 而改变路径。
回避学习 (avoidance learning)是一种学习模式,指某种行为能够造成一些令人厌恶的刺激停止。例如在大太阳下遮住眼睛,可以避免接受刺眼的阳光。
惩罚 是指用来减少、减慢、移除不想要的行为,这类技巧叫做行为减少器(英语:behavior decelerator )[ 2] :20 。与强化相同的是,被惩罚的是行为而不是动物本身。只有知道一个刺激对于行为出现频率的效果时才能确知它是否为惩罚。
正向惩罚, 又称第一型惩罚[ 3] ,实验者在环境中增加令人厌恶的刺激,以对行为进行惩罚。例如在某个行为之后,以电击 或噪音 作为刺激,造成该行为出现频率减少。
负向惩罚, 又称第二型惩罚[ 3] ,亦可称omission,是将环境中的正向强化减少。例如拿走食物盘,或在小孩进行某个行为之后,以拿走小孩的玩具作为刺激,造成小孩进行该行为的频率减少。
与强化一样,辨认一个惩罚不经常需要提到它的正向或负向。而两种的惩罚分别在引入一个新的事物,如责骂,而另一个移除已有的东西事物,如罚款。另外,虽然Skinner认为惩罚只是一个“短暂的压抑”(temporary suppression),即惩罚不是百分百相对于强化,但实验[ 4] [ 5] [ 6] 却显示两种方法效果一样,最重要是施行即时性与一致性就可改变行为[ 2] :37 。另外,某些行为心理学家认为惩罚是一个“初级过程”,也就是完全独立的学习现象,与强化有所区别。有些人认为它是负向强化的一种分类,创造任何一个造成回避惩罚行为(甚至不作反应)的状态可看成是一种强化。
在行为改变上,虽然惩罚与强化一样有效[ 7] ,但是惩罚亦带来不少副作用:
情绪上会令到目标恐惧、生气,甚至令目标变得焦虑[ 8] 。
惩罚除了控制特定行为,也一并影响所有其他行为。例如,一个学生问了一条问题,老师说了:“这条问题真蠢”。虽然该老师最初只想减少学生少问蠢问题,但是反而无论好与坏,令到该学生都不再问问题。
比起强化,惩罚需要经常去监视目标行为。例如,小孩子若因为帮忙做家务受到奖励,他会主动去做家务。而且最重要他让家长知道,好待父母来给予想要的奖励。相反,若他因为不帮忙做家务而受到惩罚的话,家长就需要经常去检查儿子,因为小孩不会主动告诉父母自己没有家务 (concealment) 而想受罚。
惩罚令到目标想离开该学习环境,好像学生会因为老师的惩罚而扮病不愿上学。
惩罚令到目标更暴力[ 9] 。好像监牢的囚犯会袭击其他囚犯或监牢人员。也易令惩罚使用者误用权力。
因为惩罚习惯化 而通常使用强度要越来越大。
避免反应 (Response Blocking):改变环境令到目标不能作出反应。例如精神病人被捆绑起来,防止作出伤人的行为。安全眼镜用来避免有发展障碍的人捅自己的眼睛[ 10] 。
消弱 (extinction):麻烦行为的发生有时候是因为有正向强化物支持下导致。例如在小朋友调皮研究的发现,小朋友作出行为失当是因为想得到家长的关注[ 11] 。只要父母关心小孩(withdraw reinforcer)就可以减少上述问题。在另一个研究中,比较老师如何训斥调皮学生的方法,发现老师如果偷偷细声地骂会比公开大声地斥责学生讨厌的行为,学生反而减少一半他们的不好行为[ 12] 。换言之,责骂其实是一种强化物。在其他研究治疗一些强逼症行为也发现病患不断重复伤害自己身体是因为怕失去了照顾者的倍伴[ 13] 。
差别性强化 (Differential Reinforcement):只对个别目标行为强化[ 14] [ 15] [ 16] 。好处是除了让目标知道他们不应做什么,也同时教导他们什么可以或应该去做[ 2] :25 。
不相容行为的差别性强化(DRI): 在没有惩罚的情况下强化特殊的不相容行为,这种方法用来减少已经频繁出现的行为,例如一个人不可能同时离开房间并在房间里与某人打架,或奖励小朋友安静地坐在座位而减少其在课室走来走去或不骚扰其他同学[ 17] 。
其他行为的差别性强化(DRO) :强化非欲消除行为之外的任何其他行为,例如想让小朋友减少玩电脑游戏则可改为增加他温习的鼓励。
低反应率差别性强化(DRL): 只强化出现频率低(较少出现)的行为,例如想让小朋友安静下来就奖励小朋友由每隔2小时至每隔4小时才大声叫嚣。对应高反应率差别性强化(DRH)
交替行为的差别性强化(DRA): 将强化物用在较为认可的行为,而不是欲消除的行为上。通常家长想减少不想要行为,告诉小孩什么不可以去做,但很少会教他们什么是可以做。DRA就是通过奖励目标一些其他好的行为,让更多好的行为去 代替 不好的[ 18] 。例如老师将更多的注意力放在坐着的学生,而不是在课堂上说话的学生(假设老师的注意力是一种强化)。
无条件强化 (Noncontingent reinforcement):不用要求要先做什么都能得到回报[ 19] 。例如老师每隔一回就关心一下其孤独症学生,不用学生做什么就有更大机会减少学生的问题[ 20] 。
暂停 (Time-out或In-school suspension):类似负向惩罚, 当目标出现不想要的行为,将其带离其原本愉快环境[ 21] ,如另一间没人的房间[ 22] 。
比起每做一个行为就有奖励,与持续性强化(continous reinforcement)不同的是,间歇性强化(intermittent)指每一个反应都不一定有结果。例如,在教育应用中,当目标学生学到想要他们做的行为后,老师可以偶尔称赞他。与赌徒上瘾的逻辑相同,因为通过不能确定何时有回报,时不时的回报会鼓励赌徒,令该行为更难消失 (resistant to extinction)。目标习惯了有时会没有奖励(赌徒则没有中奖)但不是永远没有机会(会赢钱的)。换言之,持续性强化的效果虽然快,但是快来也快去,所习得的行为也很快。
考虑消弱的影响,不完全的强化程序比起连续性的强化程序有较大的抵抗力,这种现象称作不完全强化消弱效应 (英语:Partial reinforcement extinction effect ,简称PREE)。比率程序则比间隔程序更具抵抗力[ 24] ,而变化程序也比固定程序更有抵抗力。假说如下:
分辨能力 :不能轻易分出该行为才会有反应(如赢钱)[ 23]
挫折影响 :像失败乃成功之母,必须持续进行某行为才能最终得到奖励。而减少挫折的感觉变成强化赌徒继续去赌的原因,不再太关乎有否赚钱。
开始次序 :一开始有大量成功的经验(如赢钱),即使之后明显少了成功仍继续会
回应单位 :其实根本没有不完全的强化程序,只是回应单位的分别(如1单位可以是10单位反应,也可以100单位反应)
同时提供2个选择给鸽子去选择
并行程序(英语:Concurrent schedule )指多个相对的(alternative)强化程序同时存在,程序间有不同的反应与强化物。试想像一个人在家庭与事业之间要取得平衡,当他投放更多精力在其中一样会有相应的正面回报(如维系更多时间在家庭上则与家人关系更好,或专攻事业就有更多财政回报[ 25] )。在匹配律 [ 26] 中,当面对同时多个可行的选择时的可能反应(自由意志 ),如在理查德·赫恩斯坦 的实验中白鸽要去按两个其中一个按钮,但按多久而带来食物都不同,而他则研究当有两个强化时,如何分配自己的反应是两者上[ 27] 。若某强化的回报比另一个多,当然目标会根据回报调整自己的反应策略[ 28] 。这个方程就是用来评估反应的偏好。这也可以预测小孩与父母的较量[ 29] 。像经济学中的代替品 ,除了所施放的强化物,现实中亦可能有多个强化物影响对目标强化的果效(英语:Reinforcement relativity )。
某些因子的增加和减少,能够改变强化 和惩罚 刺激的效果,例如:
强化物的质与量 :一般越多越容易强化某行为。一个刺激的效果也与成本效益 有关,刺激的数量或是大小若是足够,对行为的刺激效果较大。例如特别庞大的乐透 奖金,将使人愿意付出金钱和时间去购买彩券 ,如果奖金很少,可能不足以使人特地开车出门购买彩券。需要注意的是,在乐透的例子中除了奖金之外也存在惩罚(花费时间和金钱),行为是否表现,取决于强化和惩罚是否达到平衡。或某人给予$1000与$1去要求别人做事,正常来说前者会吸引(重赏之下必有勇夫)。这些改变效果的因子大多有生物学上的理由。生物个体的体内恒定 可以用来解释满足感,例如生物个体需要补充糖 类的时候,则糖的甜味 会成为一个强化刺激;当生物体内的血糖 浓度升高,甜味的刺激效果就会降低,甚至产生厌恶感。而不同的强化物对不同目标亦有不同的效果,只有投其所好[ 30] 才能令强化效果更显著。另外,当孩子长大后,不建议予一些实质的强化物,反而通过一些非物质(nontangible)的强化物会更好。例如:给多他们看最爱游戏的特权、赞赏等。
附带性 :如果一个刺激并非总是伴随在行为之后,则刺激的效果将减少;如果一个刺激确实的附带在每一次行为之后,刺激的效果较大。例如当一位学生习惯 迟到,而对于迟到的处罚是偶然性的,并非每次迟到都会处罚,则处罚的效果不如每次迟到都处罚的效果。而加强目标反应则需要让将所做带来的结果明显清楚(explicit),例如老师应说“你要安静地坐在你的坐位”[ 31] 而不是“你要乖些”或“你要考到超过70分”而不是“你要努力学习”[ 32] 。
强化延迟 :个体进行一个行为过后,刺激回馈的立即性[ 33] ,会影响刺激的效果。行为与刺激的间隔愈短,效果愈大。例如一位在公路 上超速的驾驶,若在一周之后才收到罚单,那么此罚单的效果将不如警察立即拦阻开罚单的效果。或要工作多久才会成功变得富有。这些叫做continous reinforcement,即指每当观察到目标有想要的行为,就要尽快立即给予相应的后果。
回应难度 :如多容易就可以得到金钱,或若做好事做有多些分而获得小礼物,那做了坏事就扣分(response cost)[ 34] [ 35] 。
行为惯性 (英:Behavioral momentum):当人们习惯了经常有回馈后,即使之后没有回馈仍会较大机会做该反应。如退休后仍继续工作[ 36] 。或者在戒毒治疗方面,戒毒人士得容易会复发再吸毒,因为旧有药物的带来的强化效果而令更难改变行为[ 37] 。
规则化 :一些已知的规则比起偶然发生的事难改变行为。例如小朋友在文法 书上学习英文会比直接从外国人身上学英文难[ 38] 。或者预先的指示会影响人们如何回应[ 39] [ 40] 。
强化历史 :有过去经验而对比到未来会如何(behavioural contrast)。如墨西哥人移民到美国后预计未来会有钱而努力工作 (positive contrast),或者经常发梦未来会变成富翁而现在懒散不工作(negative contrast)。
满足感 ,也可称为厌腻感:刺激的效果与动物个体对该刺激的胃口有关,个体对刺激的欲望愈大,刺激的效果也愈大;如果某动物个体已经对某个刺激感到满足或是厌腻,那么该刺激将不再有效果。例如食物对一只已经被喂饱的狗,鼓励的效果很小。
其中立即性和附带性能够以神经化学 来解释,当生物个体受到强化刺激,则大脑 中的多巴胺 通道将被活化,这些通道组成的网络释放短暂的多巴胺 脉冲 到许多树突 ,因此散发强化刺激讯号到突触 后神经元[ 41] 。造成刚被活化的突触对输出讯号的感应加强,因此造成强化刺激之前的行为的出现概率增加。在统计学 上显示对行为的强化刺激成功。然而当强化刺激的立即性和附带性减少,多巴胺对突触的影响能力也会减少。
非制约强化物 有时称为初级强化物 (primary reinforcer),以天生固有 (inherited) 的强化,作为一个刺激或状态,通常具有生物学 上的理由(如爱 、食物 或睡眠 机会)。
制约强化物, 有时称为次级强化物 (secondary reinforcer),一种需要与非制约强化物或更早成型的制约强化物(如金钱)许多次的同时出现的刺激或状态。在经典条件反射 中,称为二级制约 ,如“称赞”。
普通强化物 (generalized reinforcer) 一种过去曾与其他许多强化物同时出现的制约强化物(如金钱)。
实质强化物 (concrete reinforcer)一种真的摸得多的物件,如零食、玩具和贴纸。对较年幼的小朋友很有效[ 42] 。
社交强化物 (social reinforcer)通过一些手势或动作来回馈目标其行为。例如老师给学生一个笑容、更多注意力或者称赞[ 43] [ 44] [ 45] 。
活动强化物 (activity reinforcer)指目标有机会做他们想做的事[ 46] 。参见普墨克原则 。
内在强化物 (intrinsic reinforcer)指目标不需靠上述的外再鼓励,而是从心影响自己去做某行为。
这些强化物主要用来
增加强化价值,令到更渴求该奖赏而加强增加效果。
提供讯息,让目标知道该回应是应该去做的,例如白鸽在实验中完成指定动后有相应颜色 的小灯闪耀。
标记(英语:marking ),突出该回应是意义的,例如给小朋友一个小贴纸。
连结(英语:bridging ),让回应与奖赏更易连结起来。
塑型 (英语:Shaping )影响了强化的成功,增加训练者所要求的精确的近似反应[ 2] :30 。例如为了训练一只老鼠按下杠杆,可将身体转向杠杆作为第一个步骤,并强化这个动作。在训练过程中,对象的所强化的行为会愈来愈接近训练者的要求[ 47] 。譬如跑步选手最初训练只有0.4个单位速度,第二次去到0.8个单位速度,第三次0.7,第四次有0.6,第五次0.9⋯⋯不断训练后最终有1个单位速度。在改变病患行为也有应用,好像一个有严重呼吸病的8岁儿童只肯戴上口罩只有5秒,在不断鼓励下,他最终戴上了40秒[ 48] 。
连锁 (英语:Chaining )将分散的几个行为连结成一个系列(塑型只处理一个行为),每一个行为造成的结果,都是对上一个行为的强化,与对下一个行为的刺激[ 49] 。有许多连锁的教导方式,如前进连锁 ,从连锁的第一个行为开始;后退连锁 ,从最后一个连锁开始;与全作业连锁 (total task chaining),将所有的行为从头到尾教完,而不是以一系列的步骤。以打开一个被锁的门为例,首先将钥匙插入,然后转动,然后门打开。完成前一个要求,能作差别性刺激物(Sd )来让目标知道自己完成该步骤。
三者差异如下[ 2] :19 :
前进连锁 :将首先教导对象首先插入钥匙,直到这个动作熟练。之后对象会被要求插入钥匙,并教导转动钥匙,直到转动的动作熟练。然后教导将门打开。
后退连锁: 训练者先自己插入并转动钥匙,然后再教导对象开门。当开门动作熟练,训练者自己插入钥匙,并教导对象转动钥匙,然后对象开门。最后教导对象插入钥匙,并由他们自己转动和开门,第一个动作学会的时候,所有的动作都学会了。
全作业连锁: 将所有步骤作为单一系列来教学,在每个步骤中提示对象,并在熟练的过程中同时减少提示。
强化的理论被批评为循环论证 。争论点在于这种循环定义:“强化物是造成强化效果的东西,而有强化效果的东西是强化物。”而薛菲尔德 (F. D. Sheffield)建议定义改为“附带在反应上的完成行为(consummatory behavior contingent on a response)”,但这种定义尚未被心理学 广泛使用。而有些同行亦批评其理论多是事后孔明,不是科学界想要的“预测”[ 50] 。另外,强化理论暗示了人们只能被动地回应环境的变化[ 51] ,忽略人的创意、动机与社会因素的影响[ 52] 。这个理论也不能很好地解释人的牺牲自己而令其他人得益的利他 行为。
1920年代俄国心理学家巴甫洛夫 可能是首先在行为方面使用“强化”一词的人,但是他保守地使用俄语中近似的词语,且用这一词语来指强化一个已学习但较弱的反应。他的这一用法与今天选择并强化新行为的意义不同。巴甫洛夫也使用了俄语中的消弱(extinction)一词作近似于现今的使用。
在一般大众的使用中,正向强化 经常当作报偿 的同义词来使用,且针对人而不是行为。负向强化 则经常被一般人,甚至非心理学领域的社会学者用来指惩罚 。虽然与专业上的用法不同,但是斯金纳 在他1938年的书中如此使用该词语首开先河。在1953年,他才跟随其他人,减少了厌恶刺激的含义的使用。
在学术界也有学者[ 53] 认为正向与负向这个说法有点难去判断一个刺激物是否移除还是提供。例如,Iwata则问了一条问题“温度变化中,是提供冷气,还是移除热气?”[ 54] :363 。换言之,强化可以因为改变前的情况代替改变后的情况,令到某行为跟随这变化而强化。
斯金纳箱 (英语:Skinner Box ):一个高度控制的动物实验箱
穿梭箱 (英语:Shuttle boxes ):一个实验箱子分成两个房间,其中一间地面会通电,目标要学会离开 (shuttling) 原本房间来避免电击[ 55] [ 56]
累积记录器 (英语:Cumulative recorder ):一种用来记录目标学习曲线,例如老鼠每按一次杠杆 (level-pressing)或者鸽子啄向按钮时,像地震仪 般的机器上的笔会移动,从而记录轨迹[ 57] [ 58] ,并记录何时提供增加物[ 59] 。
现实中有不少的例子应用了强化与惩罚这个操作性条件反射原则,例如以下:
代币酬赏制 (英语:token economy ):如当病患保持良好行为就给予或交换其想要的东西[ 60] 。例如戒烟者可以通过网上定期上载其没有吸烟的证据来获得一些代用券[ 61] 。
父母管理训练 :父母管理训练是系列性的治疗方案,教授家长正向强化 的一些方法,来改善学龄前儿童及学龄儿童的行为情形(如过动 、易怒 、难以遵照指令等)[ 62] 。
骑滑板的小鸡 动物训练 :动物训练员用一些针对性的指令或赏罚回应来配对目标动物的行为,例如通过使用一个发声的响片 训练[ 63] [ 64] 来让动物知道其行为是否正确。另外也常用在训练服务类动物,如导盲犬 。
赞颂 ( 英语:praise ):在操作性条件反射中,这个可以是正向强化,用来令目标增加更多想要的行为。在学校理境中,老师用称赞方法可以提升学生的学业表现[ 65] [ 66] 。这也可提升人们的工作表现[ 66] 。就是不是受赞的人,附近的人通过观察,例如我的同桌同学做了这件事而赞赏,他们也会跟随强化行为[ 67] 。与其他方法效果差不多,不过最重要的是要在目标好的行为出现后,家长要尽快赞赏,并明显地说明他们因为什么而受赞[ 68] 。
应用行为分析 :在孤独症 儿童行为训练[ 69] [ 70] ,治疗师用手指著自己的口,以提示(prompt)来让目标做更多社交沟通行为后,再以消退(fading)减少此类提示,改以简单的碰一碰患者的面[ 71] 。
运动技能学习 :如何通过不同的回馈来让人学到技能(如弹琴、打球等)。
条件合同 :通过互给对方条件 来解决婚姻关系问题,好像帮对方做一些事(lists the duties)就可以有什么回报或特权[ 72] ,来改善夫妇间关系,也能知道对方需要什么[ 73] 。这也是种认知行为疗法 (CBT),让到双方讨论出问题所在。
游戏成瘾 :在电子游戏中,游戏发行商传统赌场 的老虎机 诱使赌客继续下注的策略(即上述的变化比率强化,英语:variable ratio reinforcement ),用虚拟抽奖 这种变幻莫测方法来让玩家从抽奖中赢得稀有奖品而堕入强制循环 的惯性中,而不少抽奖都会加入对结果没有影响的互动元素令玩家以为抽奖过程需要运用个人技巧[ 74] [ 75]
Walters, G. C., & Grusec, J. E. Punishment . 1977 [2019-03-23 ] . (原始内容 存档于2019-03-23).
Weems, Carl F.; Scott, Brandon G.; Graham, Rebecca A.; Banks, Donice M.; Russell, Justin D.; Taylor, Leslie K.; Cannon, Melinda F.; Varela, R. Enrique; Scheeringa, Michael A. Fitting Anxious Emotion-Focused Intervention into the Ecology of Schools: Results from a Test Anxiety Program Evaluation . Prevention Science. 2014-05-09, 16 (2): 200–210. ISSN 1389-4986 . doi:10.1007/s11121-014-0491-1 .
Schultz, Wolfram (1998). Predictive Reward Signal of Dopamine Neurons. The Journal of Neurophysiology , 80(1), 1-27.
Shuttle Box . www.harvardapparatus.co.uk. [2019-03-22 ] . (原始内容 存档于2019-03-22).
Maliken AC, Katz LF. Exploring the impact of parental psychopathology and emotion regulation on evidence-based parenting interventions: a transdiagnostic approach to improving treatment effectiveness. Clin Child Fam Psychol Rev. June 2013, 16 (2): 173–86. PMID 23595362 . doi:10.1007/s10567-013-0132-4 .
Pryor, Don't Shoot the Dog , p. 15
Brophy J. On praising effectively. The Elementary School Journal. 1981, 81 (5). JSTOR 1001606 .