Remove ads
一個結果令生物的未來行為增加的心理學概念 来自维基百科,自由的百科全书
增強(英語:Reinforcement),或稱強化,是行為主義心理學中的一個重要概念,是關於理解和修正人的行為的一種學說。 心理學研究發現,人類或動物為達到某種目的,會於所處的環境下採取特定行為;當這種行為帶來的某種反應或後果對他有利時,這種行為就會在以後重複出現,而該結果就稱為「增強物」;反之亦然,當其行為會對他帶來不利時,這種行為就自然減弱或消失,個體對行為結果所產生的後續反應,就是以操作性條件反射進行的。而由於「增強物」的適時出現,增加了個體以後在相同情形下重複這種行為的機率,這表示「增強物」對於個體的反應起了增強作用。此種增強作用,即稱之為「增強」。
「增強」這一概念的提出源於美國心理學家愛德華·桑代克,後經約翰·布羅德斯·華生、克拉克·L·赫爾等人的發展、修訂,到新行為主義代表人物伯爾赫斯·弗雷德里克·斯金納達到了一定的理論高度並發揚光大。他們都認為增強作用是決定人和動物所作所為的關鍵因素,並可以用這種「正增強」或「負增強」的辦法來影響行為的後果,從而修正其行為。
行為的增強有2種類型:
正增強,也稱積極增強、正向增強發生於一件渴求中的事或物作為一種結果而呈現,而這一結果刺激了這一渴求。在進行某個行為之後,增加對象喜愛的(通常是愉快的)刺激,並使該行為的出現頻率增加。在斯金納的實驗中,以食物或糖水做為刺激,經由老鼠按下槓桿的行為來供給食物和糖水,造成老鼠按下槓桿的頻率增加。
在進行某個行為之後,減少對象厭惡的(通常是不愉快的)刺激,並使該行為的出現頻率增加。在斯金納的實驗中,以噪音作為刺激,經由老鼠按下槓桿的行為來停止噪音,造成老鼠按下槓桿的頻率增加。
辨別正向與負向是個重要的問題。舉例來說,對一個非常熱的房間而言,來自外界的氣流是正向的,因為它帶來了相對涼爽的空氣;但是它也同時是負向的,因為它帶走了原本的熱空氣。有一些增強物可以同時以正向和負向作控制,例如一個毒癮者以吸毒來增加興奮和擺脫戒毒徵狀。另一個例子是進食,進食增加了愉悅感同時移除了飢餓的感覺。直到現在,許多行為心理學家以不帶對立性(Polarity)的增強和懲罰來包含所有的環境變化。
負向增強有兩種形式:第一種是逃脫制約,指令人厭惡的刺激出現,而作出行為去減少這些厭惡的刺激,例如抓癢或按下鬧鐘的按鈕。而另一種則叫迴避制約,指在目標為了避免出現厭惡刺激的行為,例如爲了避免飢餓而進食,或是為了避開塞車而改變路徑。
迴避學習(avoidance learning)是一種學習模式,指某種行為能夠造成一些令人厭惡的刺激停止。例如在大太陽下遮住眼睛,可以避免接受刺眼的陽光。
懲罰是指用來減少、減慢、移除不想要的行為,這類技巧叫做行為減少器(英語:behavior decelerator)[2]:20。與增強相同的是,被懲罰的是行為而不是動物本身。只有知道一個刺激對於行為出現頻率的效果時才能確知它是否為懲罰。
與增強一樣,辨認一個懲罰不經常需要提到它的正向或負向。而兩種的懲罰分別在引入一個新的事物,如責罵,而另一個移除已有的東西事物,如罰款。另外,雖然Skinner認為懲罰只是一個「短暫的壓抑」(temporary suppression),即懲罰不是百分百相對於增強,但實驗[4][5][6]卻顯示兩種方法效果一樣,最重要是施行即時性與一致性就可改變行為[2]:37。另外,某些行為心理學家認為懲罰是一個「初級過程」,也就是完全獨立的學習現象,與增強有所區別。有些人認為它是負向增強的一種分類,創造任何一個造成迴避懲罰行為(甚至不作反應)的狀態可看成是一種增強。
在行為改變上,雖然懲罰與增強一樣有效[7],但是懲罰亦帶來不少副作用:
當動物所處環境中夠多的變因被減少或是被控制時,他們在增強後的行為型態將明顯的能夠被預測。甚至當增強的速率適應於特定方法時,非常複雜的行為也能夠被預測。增強程序是用來測定將被增強的反應(特定行為的單獨出現)的計劃。有兩種極端情況,一種是連續增強,指增強所有反應;另一種是消弱,指沒有反應被增強。
比率程序能夠比間隔程序產生更高的反應頻率。變化程序也比固定程序產生更高的反應頻率。變化比率程序產生較高的反應頻率,且對消弱有較大的抵抗力,賭博是變化比率程序最有代表性的例子。在固定比率程序中,在增強之後會有一段反應暫停時間,稱為後增強暫停,在圖表上呈階梯狀。固定間隔程序也有後增強暫停,但是在圖表上呈現的是扇型。由於在已消逝的時間並沒有增強刺激,因此對象學會了以平緩的速率反應。如果生物個體是一個固定比率程序的對象,會有一個爲獲得增強的行為的次數的瞬間增加,然後生物個體被觀察到在增強來到之前有一段周期性的暫停。這種現象被稱為比率彎曲,對照在圖形上的順序為後增強暫停、比率上升、增強。
比起每做一個行為就有獎勵,與持續性增強(continous reinforcement)不同的是,間歇性增強(intermittent)指每一個反應都不一定有結果。例如,在教育應用中,當目標學生學到想要他們做的行為後,老師可以偶爾稱讚他。與賭徒上癮的邏輯相同,因為透過不能確定何時有回報,時不時的回報會鼓勵賭徒,令該行為更難消失 (resistant to extinction)。目標習慣了有時會沒有獎勵(賭徒則沒有中獎)但不是永遠沒有機會(會贏錢的)。換言之,持續性增強的效果雖然快,但是快來也快去,所習得的行為也很快。
考慮消弱的影響,不完全的增強程序比起連續性的增強程序有較大的抵抗力,這種現象稱作不完全增強消弱效應(英語:Partial reinforcement extinction effect,簡稱PREE)。比率程序則比間隔程序更具抵抗力[24],而變化程序也比固定程序更有抵抗力。假說如下:
併行程序(英語:Concurrent schedule)指多個相對的(alternative)增強程序同時存在,程序間有不同的反應與增強物。試想像一個人在家庭與事業之間要取得平衡,當他投放更多精力在其中一樣會有相應的正面回報(如維繫更多時間在家庭上則與家人關係更好,或專攻事業就有更多財政回報[25])。在匹配律[26]中,當面對同時多個可行的選擇時的可能反應(自由意志),如在理查德·赫恩斯坦的實驗中白鴿要去按兩個其中一個按鈕,但按多久而帶來食物都不同,而他則研究當有兩個增強時,如何分配自己的反應是兩者上[27]。若某增強的回報比另一個多,當然目標會根據回報調整自己的反應策略[28]。這個方程就是用來評估反應的偏好。這也可以預測小孩與父母的較量[29]。像經濟學中的代替品,除了所施放的增強物,現實中亦可能有多個增強物影響對目標增強的果效(英語:Reinforcement relativity)。
其中立即性和附帶性能夠以神經化學來解釋,當生物個體受到增強刺激,則大腦中的多巴胺通道將被活化,這些通道組成的網絡釋放短暫的多巴胺脈衝到許多樹突,因此散發增強刺激訊號到突觸後神經元[41]。造成剛被活化的突觸對輸出訊號的感應加強,因此造成增強刺激之前的行為的出現機率增加。在統計學上顯示對行為的增強刺激成功。然而當增強刺激的立即性和附帶性減少,多巴胺對突觸的影響能力也會減少。
這些增強物主要用來
塑型(英語:Shaping)影響了增強的成功,增加訓練者所要求的精確的近似反應[2]:30。例如爲了訓練一隻老鼠按下槓桿,可將身體轉向槓桿作為第一個步驟,並增強這個動作。在訓練過程中,對象的所增強的行為會愈來愈接近訓練者的要求[47]。譬如跑步選手最初訓練只有0.4個單位速度,第二次去到0.8個單位速度,第三次0.7,第四次有0.6,第五次0.9⋯⋯不斷訓練後最終有1個單位速度。在改變病患行為也有應用,好像一個有嚴重呼吸病的8歲兒童只肯戴上口罩只有5秒,在不斷鼓勵下,他最終戴上了40秒[48]。
連鎖(英語:Chaining)將分散的幾個行為連結成一個系列(塑型只處理一個行為),每一個行為造成的結果,都是對上一個行為的增強,與對下一個行為的刺激[49]。有許多連鎖的教導方式,如前進連鎖,從連鎖的第一個行為開始;後退連鎖,從最後一個連鎖開始;與全作業連鎖(total task chaining),將所有的行為從頭到尾教完,而不是以一系列的步驟。以打開一個被鎖的門為例,首先將鑰匙插入,然後轉動,然後門打開。完成前一個要求,能作差別性刺激物(Sd)來讓目標知道自己完成該步驟。
三者差異如下[2]:19:
增強的理論被批評為循環論證。爭論點在於這種循環定義:「增強物是造成增強效果的東西,而有增強效果的東西是增強物。」而薛菲爾德(F. D. Sheffield)建議定義改為「附帶在反應上的完成行為(consummatory behavior contingent on a response)」,但這種定義尚未被心理學廣泛使用。而有些同行亦批評其理論多是事後孔明,不是科學界想要的「預測」[50]。另外,增強理論暗示了人們只能被動地回應環境的變化[51],忽略人的創意、動機與社會因素的影響[52]。這個理論也不能很好地解釋人的犧牲自己而令其他人得益的利他行為。
1920年代俄國心理學家巴甫洛夫可能是首先在行為方面使用「增強」一詞的人,但是他保守地使用俄語中近似的詞語,且用這一詞語來指增強一個已學習但較弱的反應。他的這一用法與今天選擇並增強新行為的意義不同。巴甫洛夫也使用了俄語中的消弱(extinction)一詞作近似於現今的使用。
在一般大眾的使用中,正向增強經常當作報償的同義詞來使用,且針對人而不是行為。負向增強則經常被一般人,甚至非心理學領域的社會學者用來指懲罰。雖然與專業上的用法不同,但是斯金納在他1938年的書中如此使用該詞語首開先河。在1953年,他才跟隨其他人,減少了厭惡刺激的含義的使用。
在學術界也有學者[53]認為正向與負向這個說法有點難去判斷一個刺激物是否移除還是提供。例如,Iwata則問了一條問題「溫度變化中,是提供冷氣,還是移除熱氣?」[54]:363。換言之,增強可以因為改變前的情況代替改變後的情況,令到某行為跟隨這變化而增強。
現實中有不少的例子應用了增強與懲罰這個操作性條件反射原則,例如以下:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.