監犯困境 - Wikiwand

Remove ads

監犯困境（粵拼：gaam1 faan2 kwan3 ging2），又或者叫囚徒困境，係博弈論入面非零和博弈一個代表性嘅例子。簡化講，監犯困境係指以下呢種情況：明明大家合作就可以得益，但每個人各自揀對自己最有利嘅選擇，搞到最後一齊輸。

Thumb — 家陣個監犯唔想坐咁耐監，佢好唔好信自己嘅同伴，一齊沉默唔出聲呢？

最基本嗰種監犯困境係噉嘅：想像有兩個監犯－阿明同阿松－俾差人拉咗；差人想佢哋兩個認罪，於是就諗咗條計仔引佢哋招－差人將阿明同阿松分開，唔俾佢哋之間通訊，然後分別同佢哋講「嗱，而家我想你認罪，

如果你哋兩個齊齊認罪，噉就兩個都坐 5 年監；
如果你哋一個認罪一個唔出聲，噉認罪嗰個唔使坐監，唔出聲嗰個要坐 10 年；
如果你哋兩個都唔招出聲，噉就兩個都坐半年。」即係話畫做矩陣嘅話，會好似以下噉，當中每格嘅兩個數字 $x_{1},x_{2}$ 表示阿明同阿松分別要坐幾多年^[1]^[2]－

More information 阿松揀認罪, 阿松揀唔出聲 ...

	阿松揀認罪	阿松揀唔出聲
阿明揀認罪	5, 5	0, 10
阿明揀唔出聲	10, 0	0.5, 0.5

原則上，對兩個監犯整體嚟講，最正嘅選項係大家齊齊死都唔出聲（大家都淨係坐半年）；但問題係差人唔俾佢哋通訊，兩個都唔知對方會點做（資訊不足），所以假設佢哋完全理性，佢哋係會做二五仔嘅－對於阿明嚟講，如果阿松揀唔出聲，揀認罪會係最有利嘅選擇（阿明唔使坐監），而如果阿松揀認罪，噉揀認罪依然係最有利嘅選擇（阿明坐 5 年而唔係坐 10 年）－各人各自做對自己最有利嘅選擇，互相出賣搞到大家一齊輸；差人（博弈嘅莊家）喺成件事得到最大嘅回報^[1]。呢種情況喺環境保護同工商管理^[3]等多個領域嗰度都見得到，例子可以睇吓軍備競賽嘅現象^[4]^[5]。

博弈論仲有進階版嘅監犯困境：博弈論一個重要目的係想模擬現實世界嘅競爭，而最基本嗰款監犯困境响好多地方都唔係咁真實－例如現實嘅監犯喺做呢啲決策嗰陣，仲會考慮埋刑期以外嘅因素（做二五仔出返去可能會俾人反檯）；因為噉，進階嘅監犯困境分析會考慮更多嘅因素，例如一次同多次重複監犯困境結果就可能會唔同－假想家陣兩個監犯要做決策做若干次，如果其中一個監犯喺第一次嗰陣唔合作，下次對方就有可能特登揀背叛嚟罰佢，所以監犯有誘因揀合作^[6]^[7]。

Remove ads

基礎概念

睇埋：博弈論同拿殊均衡點

精確啲噉講嘅話，監犯困境可以用以下呢句嘢總結^[8]^[9]：

喺監犯困境當中，『背叛』壓倒『合作』成為佔優策略（睇下面），而且呢種博弈嘅唯一可能均衡點（睇下面）係啲參與者冚唪唥都揀『背叛』。

監犯困境嘅諗頭源自 1950 年嘅博弈論^{[e 1]}研究^[10]^[11]。當時喺美國智庫蘭德公司^{[e 2]}做嘢嘅數學家梅里爾·弗勒德^{[e 3]}同埋馬分·德里沙^{[e 4]}著手分析「個個都揀自私嘅選項，搞到大家最後一齊輸」嘅博弈，而打後加拿大數學家阿爾伯特·塔卡^{[e 5]}用形式化嘅方式嚟闡述出呢種博弈，仲幫呢種博弈改咗個名，叫

prisoner's dilemma

－英文監犯嘅兩難困境噉解^[1]。阿爾伯特·塔卡佢哋所分析嘅係最基本嗰款監犯困境，內容如下^[1]：

而家差人拉咗阿明同阿松兩個嫌疑犯，但唔夠證據將佢哋兩個入罪，於是差人就分開兩個犯（等佢哋兩個之間冇辦法進行通訊），並且俾佢哋有以下嘅選擇：

若果兩個犯其中一個認罪，並且作証檢控對方（背叛對方^{[e 6]}），而且另外嗰個唔出聲（同對方合作^{[e 7]}），噉認罪嗰個犯就會即時獲釋，唔出聲嗰個就要坐 10 年監。
若果兩個犯乜都唔講（一齊合作），噉就兩個犯都坐半年監。
若果兩個都互相檢舉（互相背叛），噉就兩個都齊齊坐 5 年。

如果用報償矩陣^{[e 8]}表述上面嘅博弈，每個格嗰兩個數分別表示阿明同阿松嘅得失嘅話^{[註 1]}：

	阿明唔出聲（合作）	阿明認罪（背叛）
阿松唔出聲（合作）	$-0.5,-0.5$	$0,-10$
阿松認罪（背叛）	$-10,0$	$-5,-5$

佔優策略

古典博弈論假設咗，一場博弈嘅參與者全部都係完美理性^{[e 9]}嘅－即係話，每位想像中嘅參與者（監犯）都係純利己，唔會關心第啲參與者嘅利益（所以會揀對自己最有利嗰個選項）而且每位參與者都有完全資訊^{[e 10]}，知道嗮場博弈嘅形勢^{[註 2]}。而家兩位參與者唔能夠同對方通訊（唔知對方會點做），喺呢種思路下由阿明嘅角度睇^[12]：

如果阿松揀唔出聲，噉對阿明嚟講，認罪最有利，因為喺呢個情況下，阿明揀認罪就唔使坐（0）揀唔出聲就要坐半年（-0.5）；而
如果阿松揀認罪，噉對阿明嚟講，認罪依然係最有利，因為喺呢個情況下，阿明揀認罪就淨係坐 5 年（-5）揀唔出聲就要坐成 10 年咁耐（-10）；

而阿松都要面對同樣嘅形勢。因為噉，假設兩位博弈者都淨係想令自己利益有咁大得咁大，而且完全知道形勢係點，對佢哋嚟講揀認罪會係嚴格嘅佔優策略^{[e 11]}：如果話一個策略係嚴格嘅佔優策略，即係話呢個策略係無論對手揀乜嘢選項，都能夠令自己嘅利益最大化嘅；而喺監犯困境下，對於是但一位參與者嚟講，揀背叛都係佔優策略，於是博弈參與者就有強烈誘因揀背叛^[12]^[13]。

拿殊均衡點

除此之外，「大家齊齊揀背叛」仲係呢場博弈嘅拿殊均衡點^{[e 12]}。拿殊均衡點係博弈論上一個重要嘅概念。喺拿殊均衡點之下，每個博弈者都揀咗一個選項，而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇^[14]。想像以下嘅情況：

想像家陣阿明同阿松齊齊決定咗要合作，但對佢哋嚟講，佢哋有誘因將自己嘅選擇變成背叛（因為可以幫自己減刑）；
如果家陣其中一個決定咗要背叛，噉對另外嗰位博弈者嚟講，佢有誘因跟住將自己嘅選擇變成背叛（等自己由坐 10 年變成坐 5 年）；
「大家齊齊揀背叛」係一個拿殊均衡點－喺呢種情況下，大家都揀咗背叛，而如果是但一個人單方面噉將自己嘅選擇變成合作，佢會蒙受損失（由坐 5 年變成坐 10 年）。

由此可見，喺監犯困境裏面，「大家齊齊揀背叛」係唯一一個拿殊均衡點^[8]。順帶一提，呢點亦係監犯困境同獵鹿博弈^{[e 13]}嘅主要分別－喺獵鹿博弈當中，「齊齊合作」嘅報償夠高，令到「齊齊合作」同「齊齊背叛」一樣都係拿殊均衡點^[15]。

數學形式

最基本嗰款監犯困境仲可以廣義化^{[e 14]}成更加抽象嘅數學物體。想像家陣^[1]

叫兩位博弈者做「紅色」（red）同「藍色」（blue）^{[註 3]}；
每位博弈者都有兩個可能嘅選項－合作同埋背叛；
如果兩位博弈者齊齊揀合作，佢哋嘅報償會係 $R$ （獎勵^{[e 15]}）咁多；
如果兩位博弈者齊齊揀背叛，佢哋嘅報償會係 $P$ （懲罰^{[e 16]}）咁多；
而如果兩位博弈者一個揀合作一個揀背叛，揀背叛嗰位嘅報償會係 $T$ （引誘^{[e 17]}）咁多，而揀合作嗰位嘅報償會係 $S$ （老襯^{[e 18]}）咁多；

將上述嘅嘢用報償矩陣嚟表達嘅話，紅色字表示紅色嗰方得到嘅報償，而藍色字表示藍色嗰方得到嘅報償^[1]：

More information 紅色揀合作, 紅色揀背叛 ...

	紅色揀合作	紅色揀背叛
藍色揀合作	R, R	S, T
藍色揀背叛	T, S	P, P

定義上，喺監犯困境當中，以下呢條不等式成立（假設報償值係愈正愈理想）：

T>R>P>S

例： $0>-0.5>-5>-10$ ；而且

{\frac {T+S}{2}}\leq R

用唔係咁精確嘅純文字嚟解嘅話：

More information 紅色揀合作, 紅色揀背叛 ...

	紅色揀合作	紅色揀背叛
藍色揀合作	贏-贏	大輸-大贏
藍色揀背叛	大贏-大輸	輸-輸

捐錢博弈

内文：捐錢博弈

捐錢博弈^{[e 19]}係監犯困境嘅一個特殊（狹義）情況。想像家陣場博弈個莊家同博弈者講，要求佢哋付出 $c$ 咁多成本（捐錢），如果兩個人都肯捐錢，噉大家齊齊攞到 $b$ 咁多嘅得益，而 $b>c$ ；如果佢哋齊齊唔肯捐錢，就兩個都冇得益... 等等。用報償矩陣表達嘅話，捐錢博弈係噉嘅^[16]：

More information 紅色揀合作, 紅色揀背叛 ...

	紅色揀合作	紅色揀背叛
藍色揀合作	b-c, b-c	-c, b
藍色揀背叛	b, -c	0, 0

當中 $2(b-c)>b-c$ 。喺實際應用上，捐錢博弈可以用嚟分析市場^[16]。

Remove ads

基本應用

睇埋：經濟學、社會科學、動物行為同進化博弈論

最基本嗰款監犯困境並唔係咁自然，只係一個高度抽象化嘅數學理論情況－喺現實世界當中，啲監犯好多時都會因為驚出到去俾人反檯而唔做二五仔。不過事實表明咗，有好多現實當中嘅社會甚至自然現象都可以搵到類似監犯困境嘅情況，可以將結果畫成同樣嘅報償矩陣－即係有若干個個體要做決策，明明大家合作就可以一齊得益，但每個人各自採取自己心目中嘅佔優策略，搞到最後大家一齊蒙受損失。因為噉，監犯困境受好多領域嘅研究者關注－經濟學、政治學同社會學等嘅社會科學上都有用監犯困境嚟分析自己研究嘅現象^[17]，而且動物行為學同進化生物學上仲有用監犯困境嚟分析動物個體喺進化過程當中嘅博弈（進化博弈論）^[18]。

以下係各界嘅例子。

軍備競賽

内文：軍備競賽同安全困境

喺國際關係上，軍備競賽^{[e 20]}係指兩個或者以上嘅國家鬥提升自身嘅軍隊嘅戰鬥力－包括咗鬥培訓士兵、鬥生產武器同埋鬥開發新武器呀噉^[19]^[20]，而呢種現象被指可以用監犯困境嚟描述。想像家陣有若干個國家，對於每個國家嚟講^[21]^[22]：

佢有「提升軍隊戰鬥力」同「唔提升軍隊戰鬥力」兩個可能嘅選項；
「軍隊戰鬥力高過第啲國家」對佢嚟講有利；
佢有能力用自己嘅情報機構嚴格控制有關自己軍事力量實情嘅情報，即係話佢嘅軍事力量實情係一樣私密資訊^{[e 21]}－係第啲國家唔知嘅；
噉亦都表示，佢唔能夠清楚知道第啲國家嘅軍事力量實情；

喺最基本上，想像美國同蘇聯兩個國家，「合作」表示「唔提升軍隊戰鬥力」，「背叛」表示「提升軍隊戰鬥力」。原則上，「大家齊齊冇戰鬥力」就唔會打仗（ ${\text{R}},{\text{R}}$ ），但現實係，「人哋提升戰鬥力，自己唔提升」係一個極壞嘅情況（即係話 ${\text{P}}>{\text{S}}$ ，而且 ${\text{T}}>{\text{R}}$ ）^{[註 4]}^[23]，所以對於兩個國家嚟講，揀「背叛」係佔優策略，而且大家齊齊揀「背叛」係成場博弈唯一一個拿殊均衡點－大致上就好似監犯困境嘅情況噉樣^[21]^{:p. 6-7}：

More information 蘇聯揀合作, 蘇聯揀背叛 ...

	蘇聯揀合作	蘇聯揀背叛
美國揀合作	R, R	S, T
美國揀背叛	T, S	P, P

博弈論研究仲可以對軍備競賽作出以下嘅進一步分析^[21]：

「提升軍隊戰鬥力」係需要成本嘅－養士兵、生產武器同研發武器冚唪唥都需要花費資源，例如係响冷戰時期，美國同蘇聯之間嘅軍備競賽就爲蘇聯帶嚟咗沉重嘅經濟負擔；設 ${\text{c}}$ 做提升戰鬥力所需嘅成本，理論上如果 $c$ 數值有返咁上下大，就會令到提升戰鬥力嘅最後所得（ ${\text{T}}-{\text{c}}$ 同埋 ${\text{P}}-{\text{c}}$ 嘅數值）夠細，就有可能令啲國家缺乏提升戰鬥力嘅誘因。
博弈者可以有個體差異（睇埋有限理性），即係話有啲博弈者冇咁鍾意提升戰鬥力，主觀覺得 ${\text{c}}$ 數值大，同時噉亦都表示，每位博弈者都要評估第啲博弈者嘅個性（軍事情報相關嘅嘢），每位博弈者心目中都有一個概率分佈，反映佢心目中「博弈者 $j$ 係呢款呢款個性嘅機會率」；原則上，如果一個國家嘅決策者覺得第啲國家嘅決策者都係冇誘因提升戰鬥力嘅，噉就會令佢哋相信第啲國家都主觀覺得 ${\text{c}}$ 數值大，更加有理由相信第啲國家會揀背叛嘅機會率低，於是就會比較有誘因揀合作。

... 等等。

關稅戰

内文：關稅戰

關稅戰^{[e 22]}係國際貿易上嘅一種現象：關稅係指一個國家（或者一個經濟體）對入口或者出口嘅貨落一啲稅，好多時目的都係為咗想保護自己內部嘅生產行業－例如要由外國嚟嘅入口貨交稅，令到外國貨喺呢個國家賣嗰陣焗住要加價嚟回本，於是對於個國家嘅消費者嚟講，呢啲外國貨就變到冇咁抵買^[24]^[25]；關稅戰就係指兩個經濟體喺做貿易嗰時鬥向對方嘅貨加關稅，搞到大家賣起自己啲貨上嚟難咗，好多時最後雙方都有損失^[26]^[27]。

家陣想像兩個國家， ${\text{A}}$ 同 ${\text{B}}$ ，佢哋分別各有兩個選擇^[26]：

提高關稅，保護自己嘅國內貨（背叛）；
同對方達成關稅上嘅協定，降低關稅（合作）；

報償矩陣如下：

More information

...


	${\text{B}}$ 揀合作	${\text{B}}$ 揀背叛
${\text{A}}$ 揀合作	R, R	S, T
${\text{A}}$ 揀背叛	T, S	P, P

理論上，如果大家齊齊合作嘅話，噉就大家齊齊有得做自由貿易－設 ${\text{R}}$ 做大家齊齊合作所得， ${\text{P}}$ 做大家齊齊背叛所得， ${\text{R}}>{\text{P}}$ ；假想而家兩國處於「齊齊合作」嘅狀態，但其中一個國家因為某啲原因唔守關稅協定，單方面噉提高關稅（背叛），另外嗰國就會蒙受損失－由單方面提高關稅嗰個國家嘅角度睇，佢自己國貨喺國內會好賣咗，同時假如對方唔施加關稅，佢啲貨喺另外嗰個國家嘅銷情會不變，即係話 ${\text{T}}>{\text{R}}$ ^{[註 5]}。喺呢個時候，另外嗰個國家又會有誘因施加關稅－家陣佢嘅貨喺另外嗰個國家冇咁好賣，而佢嘅貨喺自己國內銷情不變（ ${\text{R}}>{\text{S}}$ ），而如果佢又施加返關稅落對方嘅貨嗰度，就可以令自己啲貨喺自己國內好賣返啲（ ${\text{P}}>{\text{S}}$ ）；於是乎 ${\text{T}}>{\text{R}}>{\text{P}}>{\text{S}}$ ，兩國之間就出現咗關稅戰嘅情況^[26]^[27]。

喺實際應用上，關稅戰可以用國際協定嘅方法避免：國際之間對關稅呢家嘢有協議，唔肯守協議嘅國家會俾第啲國家罰；噉講即係話國際協議表示，揀「背叛」嘅國家要為自己嘅選擇負出代價；設代價嘅數值做 ${\text{c}}$ ，如果 ${\text{c}}$ 嘅數值有返咁上下大^{[註 6]}，就會令到 ${\text{T}}-{\text{c}}$ 數值夠細，令到 ${\text{T}}-{\text{c}}<{\text{R}}$ ，於是啲國家就冇誘因單方面加關稅－國際協議嘅存在改變咗場博弈嘅結構，令到「大家齊齊合作」成為一個拿殊均衡點^[26]^[28]。

公地悲劇

内文：公地悲劇

公地悲劇^{[e 23]}係一種有關環保嘅現象：家吓想像一個由多個博弈者共同使用嘅天然資源（例如係石油或者森林），如果佢哋都有節制噉開採個資源嘅話，個資源可以好襟用，但現實發生嘅係，每個博弈者往往會以自身利益行先，過度噉開採個資源，最後搞到個資源枯竭，大家都冇得用，呢個現象就係所謂嘅公地悲劇。即係話^[29]^[30]：

「

公地悲劇係指一個事實：凡係『屬於大家嘅公物』往往就係『最少人關注同埋照顧嘅財產』。

」

想像家陣有兩個團體， ${\text{A}}$ 同 ${\text{B}}$ ，對於一個天然資源，佢哋分別各有兩個選擇^[31]：

過度開採個資源（背叛）；
乖乖哋跟規矩噉用個資源（合作）；

而報償矩陣如下：

More information

...


	${\text{B}}$ 揀合作	${\text{B}}$ 揀背叛
${\text{A}}$ 揀合作	R, R	S, T
${\text{A}}$ 揀背叛	T, S	P, P

原則上，整體上最理想嘅狀態係大家合作珍惜個資源， ${\text{R}}>{\text{P}}$ ；但同時如果其中一方作反，郁手勁開採個資源，噉佢嘅所得會變成多過對方好多， ${\text{T}}>{\text{S}}$ ，而且會多過乖乖哋跟規矩嗰陣得到嘅， ${\text{T}}>{\text{R}}$ ；而假設兩個團體之間有競爭，「俾對方單方面任意開採個資源」會一個非常之唔好嘅情況，而 ${\text{P}}>{\text{S}}$ ；如是者， ${\text{T}}>{\text{R}}>{\text{P}}>{\text{S}}$ 。事實係，有用電腦模擬做嘅研究指，模擬一個有兩種博弈者－合作者同背叛者－嘅世界，而顧名思義，合作者傾向合作，背叛者傾向背叛，模擬發現，隨住時間過去，合作者嘅所得會明顯少過背叛者嘅，於是合作者就會受到好似進化噉嘅過程被淘汰，令到啲博弈者焗住一係改變策略、一係被淘汰。呢種情況喺現實世界頗為常見：好似係漁業噉，公海入面啲魚係公有嘅，而喺「就算自己唔濫捕，第啲人都會濫捕」嘅思想下，漁民往往會忽略對生態嘅考量大撈特撈（背叛），最後搞到海洋生態受破壞，而漁民自己嘅生計亦都會受影響（共同背叛嘅結果）^[31]。

基於對監犯困境嘅思考，喺 2016 年有一班美國佐治亞州嘅科學家向當地政府提議咗一啲系統，令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣，包括係運用一個信譽系統嚟獎勵合作者（用政府獎勵令 ${\text{R}}$ 數值升）同埋懲罰背叛者（用政府干預令到 ${\text{T}}$ 同 ${\text{P}}$ 數值跌），令到啲人比較有誘因合作，最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題^[32]。

廣告戰

睇埋：營銷策略同市場結構

有人指，監犯困境嘅問題喺工商管理上都會撞到。例如係廣告戰噉：廣告係營銷嘅常見做法，指喺某啲媒體（電視同網站等等）嗰度單向噉向消費者傳達信息，並且靠噉嚟吸引佢哋買自己嘅產品。想像兩間同行嘅公司， ${\text{A}}$ 同 ${\text{B}}$ ，原則上，每間公司都大致上有兩個選擇^{[註 7]}：

揼多啲錢嚟賣廣告同諗計提高廣告嘅質量，以求壓倒第啲公司（背叛）；
同第啲公司達成協議，一齊唔賣咁多廣告，減少賣廣告方面嘅開支（合作）；

報償矩陣如下：

More information

...


	${\text{B}}$ 揀合作	${\text{B}}$ 揀背叛
${\text{A}}$ 揀合作	R, R	S, T
${\text{A}}$ 揀背叛	T, S	P, P

原則上，大家齊齊唔賣廣告係一個理想嘅情況－設計廣告同賣廣告冚唪唥都係錢同時間，唔賣廣告可以慳返好多資源， ${\text{R}}>{\text{P}}$ ；問題係，如果是但一間公司郁手賣廣告，（假設啲廣告能夠有效噉吸引消費者）佢就有得搶走對方啲客，即係話 ${\text{T}}>{\text{R}}>{\text{S}}$ ；同時如果冇賣開廣告嗰間公司揼錢賣廣告，就可以爭啲客返嚟，即係 ${\text{P}}>{\text{S}}$ ；如是者， ${\text{T}}>{\text{R}}>{\text{P}}>{\text{S}}$ ，兩間公司明明大家一齊唔賣廣告就可以得益最大化，但係兩間公司唔信任對方，「大家齊齊賣廣告」係一個拿殊均衡點，於是兩間公司就陷入廣告戰，而廣告成本一增加，就會損害兩間公司嘅利益^{[註 7]}。亦都可以睇吓市場結構上有關「一個市場易唔易進入」（易進入表示易出現新嘅競爭者）方面嘅問題。

Remove ads

重複監犯困境

最基本嘅監犯困境唔係咁真實，所以有好多博弈論研究者都有諗點樣擴展監犯困境嘅理論模型，當中重複監犯困境^{[e 24]}就係其中一個最重要嘅擴展監犯困境模型：重複嘅監犯困境呢個諗頭係由美國著名政治學家羅拔·阿塞羅德^{[e 25]}喺 1984 年嗰時提出嘅，當時阿塞羅德寫咗本叫《合作嘅進化》^{[e 26]}嘅書，佢喺書入面指出，最基本嗰個監犯困境模型冇考慮到重複^{[e 27]}嘅問題－喺現實世界，博弈者之間好少可會淨係博弈一次，好多時會係會反覆噉多次互相博弈，博弈者有得記住對手之前嘅行為，所以會出現（例如）：

記得個對手打前揀過合作，所以預對方今次會繼續揀合作（信任）、
記得個對手打前背叛過自己，但自己今次依然揀合作（原諒）、同埋
記得個對手打前背叛過自己，自己今次揀背叛（報仇）、

... 等嘅現象。阿塞羅德做嘅呢啲分析就形成咗所謂嘅重複監犯困境模型^[33]^[34]。

2014 年台灣一地嘅一條客家古村；人類多數都會成大班噉聚喺一笪地方住，長時間噉共處。

阿塞羅德進一步指出，重複嘅博弈係利他行為得以進化出嚟嘅主因：用日常用語講嘅話，對一個博弈者嚟講，對自己最有利嘅情況係次次都係自己揀背叛而對方揀合作（貪心策略）；但喺實際應用上，博弈往往係重複嘅，所以博弈者有能力記住對方背叛過自己同埋報仇，於是一個群體嘅人（假設佢哋會共處一段長嘅時間）有能力合作杯葛嗰啲成日揀背叛嘅人，令到「揀背叛」變成一種長遠嚟講對個體生存不利嘅策略－自私嘅個體就有誘因多啲揀合作（利他策略）^[34]^[35]。

以牙還牙

内文：以牙還牙

喺有咗重複監犯困境嘅概念之後，博弈論研究者就開始諗個問題：响重複監犯困境之下，乜嘢策略先係最有利（最能夠令自己嘅得益有咁大得咁大）嘅呢？對於呢個問題，阿塞羅德等嘅研究者進行電腦模擬研究，佢哋行個體為本模型^{[e 28]}，喺最簡單嘅情況下即係^[36]：

將 R、T、S 同 P 設定做特定嘅數值；
建立 $n$ 個模擬嘅個體，每個個體有兩個屬性－「採取嘅策略」 strat 同埋「累積咗嘅總得益」 score；
是但抽兩個個體，俾佢哋進行監犯困境博弈，每位模擬嘅博弈者會按佢嘅 strat 做決策；
按每個個體做嘅決定，計佢嘅總得益點變，例如兩個都揀咗合作嘅話，噉佢哋每個人都 score = score + R；
重複步驟 3 同 4 若干次；

原則上，「最成功嘅策略」係指令到個體嘅總得益最大化嘅策略，所以研究者要做嘅嘢係喺步驟 3 同 4 重複咗若干次之後，foreach 策略類型，（例如）計吓採取嗰種策略嘅個體嘅平均 score，而呢個數值最高嗰種策略就係「最成功嘅策略」^[37]。

呢啲研究發現，响呢種情況下，以牙還牙^{[e 29]}係咁多種決定型（冇隨機性喺入面）策略當中最頑健嗰種，定義係^[38]

「

無論如何，喺第一次博弈嗰陣都揀合作；然後每次博弈嗰陣都做對手喺打前嗰次博弈做嘅嘢（假設啲個體有充足嘅記憶能力）。

」

以牙還牙呢種策略簡單得好交關，用 BASIC 呢隻入門程式語言寫嘅話淨係用得嗰 4 行碼，但就喺好多模擬嘅比賽嗰度打低第啲策略，成為最後嘅贏家^[38]^[39]。打後嘅研究仲有考慮埋一啲唔係決定型（即係帶有隨機性）嘅策略，例如係所謂嘅有原諒嘅以牙還牙^{[e 30]}噉，就係指「以牙還牙，但每次要揀背叛嗰陣都有 1 至 5% 嘅機會率會改為揀合作」，而呢種策略被指喺通訊有可能出錯嘅情況下最好用：喺呢種情況下，個體可能會因為通訊錯誤－對方查實揀咗合作，但佢以為對方揀咗背叛－而陷入互相報仇嘅情況，而有原諒嘅以牙還牙就會幫佢哋脫離呢種處境^[40]。

四大特徵

對重複監犯困境嘅進階分析仲有嘗試控制唔同嘅變數，例如正話提到，有原諒嘅以牙還牙呢種策略喺通訊有機會出錯嘅情況下會零舍成功。而通過模擬唔同嘅情況（簡單例子有改變 R 同 T 嘅數值），阿塞羅德搵到一樣重大發現－有好多種策略都可以喺重複監犯困境當中取得成功，不過假如博弈嘅重複次數有返咁上下，成功嘅策略幾乎冚唪唥都會有以下呢啲特徵^[41]^[42]：

友善^{[e 31]}：對手一日未有揀背叛，種策略就唔會揀背叛，而如果 $R>P$ 而且「自己背叛會引致對方打後改為揀背叛」，「友善」可以令自己利益最大化；用日常用語講嘅話，即係「對其他人好」會防止佢哋報仇，所以對自己有利。
報仇型^{[e 32]}：但阿塞羅德亦都發現，成功嘅策略唔會係盲目嘅利他主義－佢發現，「永遠淨係揀合作」係一種非常惡劣嘅策略，會搞到個個體係噉勁俾人背叛而最後輸（假設 $T>S$ ，而且 $T-S$ 數值有返咁上下大），所以成功嘅策略唔會無條件噉揀合作，實要喺對方會揀背叛嗰陣跟住揀背叛。
會原諒^{[e 33]}：成功嘅策略亦都要有能力原諒－喺以牙還牙同類似嘅策略下，多數嘅個體都係「只要對手合作，就會跟住合作」嘅，而如果兩個個體之間嘅博弈出現通訊錯誤等嘅嘢，令到是但一個做咗一吓背叛舉動，就會搞到雙方爭住揀背叛（進入報仇循環），而如果其中一方跟住揀咗合作（就算呢吓合作舉動係因為隨機而起嘅都好），就有可能令雙方去返齊齊合作嘅狀態，而假如 $R>P$ 而且 $R-P$ 數值有返咁上下大，噉有可能會令到利益長遠嚟講大啲。
唔妒忌^{[e 34]}：唔會嘗試一定要自己報償多過對手先開心，噉即係話採取呢種策略嘅個體喺大家齊齊合作（大家所得都係 $R$ ）嗰陣會滿足。

用比較似日常用語嘅語言嚟講嘅話，基於呢種分析，阿塞羅德做咗以下嘅結論：人係一種有社會性嘅動物，往往會一齊合作先可以做到最多嘢（ $R>P$ ），但喺合作嘅情況當中，成日都會出現機會容許某啲參與者搵第啲參與者老襯（背叛係有可能發生嘅，而且 $T>R>S$ ）－即係話人嘅現實生活查實好似重複嘅監犯困境噉；喺呢種情況下，人嘅自私本性（想令自己得益有咁大得咁大）會令佢哋趨向係「友善」（對方唔背叛，自己就唔背叛）、識得原諒其他人同埋唔好成日妒忌人（睇埋無形之手）；但同時，呢個世界唔係烏托邦，完全利他嘅人係缺乏靠自己生存嘅能力嘅－人實要識得喺俾人背叛嗰陣，用返背叛嚟應對，以防俾人搵老襯^[43]。

Remove ads

睇埋

文獻

羅伯特。阿克塞爾羅德和威廉。漢密頓，《合作嘅進化》（"The Evolution of Cooperation"），出自《科學》（Science），1981年，第211期：1390-1396 頁。
羅伯特。阿克塞爾羅德，《合作嘅進化》（The Evolution of Cooperation），Basic Books 出版社，ISBN 0-465-02121-2。
羅伯特。阿克塞爾羅德，《合作嘅複雜性》（The Complexity of Cooperation），普林斯頓大學出版社，1997年，ISBN 0-691-01567-8。
理查德。道金斯，《自私嘅基因》（The Selfish Gene），第二版——有兩章關於合作嘅進化，1990年，ISBN 0-19-286092-5。
格羅夫曼和普爾，《重覆囚徒困境博弈嘅貝葉斯模型》（"Bayesian Models for Iterated Prisoner's Dilemma Games"），1975年，出自《一般系統》（General Systems），第20期：185--194 頁。
加勒特。哈丁，《公共地悲劇》（"The Tragedy of the Commons"），出自《科學》（Science），1968年，第162期：1243-1248 頁。
科勒普斯、戴維、羅伯特·威爾遜、保羅。米爾格羅姆和約翰·羅伯茨，《有限重覆囚徒困境中嘅理性合作》（"Rational Cooperation in the Finitely Repeated Prisoners' Dilemma"），出自《經濟理論雜誌》（Journal of Economic Theory），1982年，第27（2）期：245-252頁。
保羅。米爾格羅姆，《阿克斯洛德嘅合作嘅進化》（"Axelrod's The Evolution of Cooperation"），出自《蘭德經濟學雜誌》（Rand Journal of Economics），1984年，第15（2）期：30-59 頁。
威廉。龐德斯通，《囚徒困境：約翰·馮諾依曼、博弈論和炸彈之謎》（Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb），Doubleday 出版社，1992年，ISBN 0-385-41567-2。如標題所指出嘅，這是一個廣泛流行嘅入門介紹。
阿納托爾。拉波波特和阿爾伯特。查馬哈，《囚徒困境》（Prisoner's Dilemma），密歇根大學出版社，1965年。呢本書解釋咗好多實驗，當中進行咗囚徒困境心理博弈。
湯姆。費爾霍夫，《交易者困境：囚徒困境嘅連續版本》（"The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma"），《計算機科學講義》（Computing Science Notes）93/02，1998年，荷蘭愛因霍芬科技大學，數學和電腦科學系。
新方法贏得囚徒困境比賽（嚟自 Wired.com）。

Remove ads

註釋

[註 1]
以「幾多年嘅自由」嚟量度，例如「 $-0.5,-0.5$ 」表示兩個都喪失半年嘅自由。
[註 2]
廿世紀嘅經濟學研究經已開始放棄完美理性嘅假設，詳情可以睇吓行為經濟學。
[註 3]
或者是但揀兩個名嗌佢哋。
[註 4]
現實表明咗，「防禦型」嘅武器往往可以輕易噉攞嚟做攻擊用途，所以「防禦型」武器同「攻擊型」武器喺呢方面分別唔明顯。
[註 5]
進階嘅博弈論分析仲諗到，「賣嘢俾對方」未必淨係有得益－例如如果兩國打緊仗，噉賣高質貨俾對方可能會搞到自己有第啲代價（敵國強咗），即係背叛嘅實際得益會係 ${\text{T}}+w$ ，當中 $w<0$ 。
[註 6]
資訊扮演咗重要角色：一般嚟講，國家會知第啲國家有冇落關稅，所以一有國家落關稅，第啲國家就會即刻作出懲罰行動；唔似得（例如）軍備競賽嗰陣噉，一個國家有能力操控情報，可以喺第啲國家唔知嘅情況下提升軍力，搞到國際協議冇咁能夠控制軍備競賽。
[註 7]
可以睇吓商業同經濟當中嘅監犯困境（英文）。

Remove ads

參考資料

Loading content...

出面網頁

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

基礎概念

佔優策略

拿殊均衡點

數學形式

捐錢博弈

基本應用

軍備競賽

關稅戰

公地悲劇

廣告戰

重複監犯困境

以牙還牙

四大特徵

相關博弈

睇埋

文獻

註釋

參考資料

出面網頁