博弈論入面啲標準例子 From Wikipedia, the free encyclopedia
監犯困境(粵拼:gaam1 faan2 kwan3 ging2),又或者叫囚徒困境,係博弈論入面非零和博弈一個代表性嘅例子。簡化講,監犯困境係指以下呢種情況:明明大家合作就可以得益,但每個人各自揀對自己最有利嘅選擇,搞到最後一齊輸。
最基本嗰種監犯困境係噉嘅:想像有兩個監犯-阿明同阿松-俾差人拉咗;差人想佢哋兩個認罪,於是就諗咗條計仔引佢哋招-差人將阿明同阿松分開,唔俾佢哋之間通訊,然後分別同佢哋講「嗱,而家我想你認罪,
阿松揀認罪 | 阿松揀唔出聲 | |
---|---|---|
阿明揀認罪 | 5, 5 | 0, 10 |
阿明揀唔出聲 | 10, 0 | 0.5, 0.5 |
原則上,對兩個監犯整體嚟講,最正嘅選項係大家齊齊死都唔出聲(大家都淨係坐半年);但問題係差人唔俾佢哋通訊,兩個都唔知對方會點做(資訊不足),所以假設佢哋完全理性,佢哋係會做二五仔嘅-對於阿明嚟講,如果阿松揀唔出聲,揀認罪會係最有利嘅選擇(阿明唔使坐監),而如果阿松揀認罪,噉揀認罪依然係最有利嘅選擇(阿明坐 5 年而唔係坐 10 年)-各人各自做對自己最有利嘅選擇,互相出賣搞到大家一齊輸;差人(博弈嘅莊家)喺成件事得到最大嘅回報[1]。呢種情況喺環境保護同工商管理[3]等多個領域嗰度都見得到,例子可以睇吓軍備競賽嘅現象[4][5]。
博弈論仲有進階版嘅監犯困境:博弈論一個重要目的係想模擬現實世界嘅競爭,而最基本嗰款監犯困境响好多地方都唔係咁真實-例如現實嘅監犯喺做呢啲決策嗰陣,仲會考慮埋刑期以外嘅因素(做二五仔出返去可能會俾人反檯);因為噉,進階嘅監犯困境分析會考慮更多嘅因素,例如一次同多次重複監犯困境結果就可能會唔同-假想家陣兩個監犯要做決策做若干次,如果其中一個監犯喺第一次嗰陣唔合作,下次對方就有可能特登揀背叛嚟罰佢,所以監犯有誘因揀合作[6][7]。
喺監犯困境當中,『背叛』壓倒『合作』成為佔優策略(睇下面),而且呢種博弈嘅唯一可能均衡點(睇下面)係啲參與者冚唪唥都揀『背叛』。
監犯困境嘅諗頭源自 1950 年嘅博弈論[e 1]研究[10][11]。當時喺美國智庫蘭德公司[e 2]做嘢嘅數學家梅里爾·弗勒德[e 3]同埋馬分·德里沙[e 4]著手分析「個個都揀自私嘅選項,搞到大家最後一齊輸」嘅博弈,而打後加拿大數學家阿爾伯特·塔卡[e 5]用形式化嘅方式嚟闡述出呢種博弈,仲幫呢種博弈改咗個名,叫
-英文監犯嘅兩難困境噉解[1]。阿爾伯特·塔卡佢哋所分析嘅係最基本嗰款監犯困境,內容如下[1]:
如果用報償矩陣[e 8]表述上面嘅博弈,每個格嗰兩個數分別表示阿明同阿松嘅得失嘅話[註 1]:
阿明唔出聲(合作) | 阿明認罪(背叛) | |
阿松唔出聲(合作) | ||
阿松認罪(背叛) |
古典嘅博弈論假設咗,一場博弈嘅參與者全部都係完美理性[e 9]嘅-即係話,每位想像中嘅參與者(監犯)都係純利己嘅,唔會關心第啲參與者嘅利益(所以會揀對自己最有利嗰個選項),而且每位參與者都具有完全資訊[e 10],即係完全知道嗮場博弈嘅形勢[註 2]。而家兩位參與者唔能夠同對方通訊(唔知對方會點做),噉喺呢種思路下,如果由阿明嘅角度嚟睇嘅話[12]:
而阿松都要面對同一樣嘅形勢。因為噉,假設兩位博弈者都淨係一味想令自己嘅利益有咁大得咁大,而且完全噉知道個形勢係點嘅話,噉對佢哋嚟講,「揀認罪」會係嚴格嘅佔優策略[e 11]:喺博弈論上,如果話一個策略係「嚴格」嘅佔優策略,即係話呢個策略係「無論對手揀乜嘢選項,都能夠令自己嘅利益最大化」嘅;而喺監犯困境下,對於是但一位參與者嚟講,揀「背叛」都係一個佔優策略,於是場博弈嘅參與者就有強烈嘅誘因揀「背叛」[12][13]。
除此之外,「大家齊齊揀背叛」仲係呢場博弈嘅拿殊均衡點[e 12]。拿殊均衡點係博弈論上一個重要嘅概念。喺拿殊均衡點之下,每個博弈者都揀咗一個選項,而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇[14]。想像以下嘅情況:
由此可見,喺監犯困境裏面,「大家齊齊揀背叛」係唯一一個拿殊均衡點[8]。順帶一提,呢點亦係監犯困境同獵鹿博弈[e 13]嘅主要分別-喺獵鹿博弈當中,「齊齊合作」嘅報償夠高,令到「齊齊合作」同「齊齊背叛」一樣都係拿殊均衡點[15]。
最基本嗰款監犯困境仲可以廣義化[e 14]成更加抽象嘅數學物體。想像家陣[1]
將上述嘅嘢用報償矩陣嚟表達嘅話,紅色字表示紅色嗰方得到嘅報償,而藍色字表示藍色嗰方得到嘅報償[1]:
紅色揀合作 | 紅色揀背叛 | |
---|---|---|
藍色揀合作 | ||
藍色揀背叛 |
定義上,喺監犯困境當中,以下呢條不等式成立(假設報償值係愈正愈理想):
例:;而且
用唔係咁精確嘅純文字嚟解嘅話:
紅色揀合作 | 紅色揀背叛 | |
---|---|---|
藍色揀合作 | ||
藍色揀背叛 |
捐錢博弈[e 19]係監犯困境嘅一個特殊(狹義)情況。想像家陣場博弈個莊家同博弈者講,要求佢哋付出 咁多成本(捐錢),如果兩個人都肯捐錢,噉大家齊齊攞到 咁多嘅得益,而 ;如果佢哋齊齊唔肯捐錢,就兩個都冇得益... 等等。用報償矩陣表達嘅話,捐錢博弈係噉嘅[16]:
紅色揀合作 | 紅色揀背叛 | |
---|---|---|
藍色揀合作 | ||
藍色揀背叛 |
最基本嗰款監犯困境並唔係咁自然,只係一個高度抽象化嘅數學理論情況-喺現實世界當中,啲監犯好多時都會因為驚出到去俾人反檯而唔做二五仔。不過事實表明咗,有好多現實當中嘅社會甚至自然現象都可以搵到類似監犯困境嘅情況,可以將結果畫成同樣嘅報償矩陣-即係有若干個個體要做決策,明明大家合作就可以一齊得益,但每個人各自採取自己心目中嘅佔優策略,搞到最後大家一齊蒙受損失。因為噉,監犯困境受好多領域嘅研究者關注-經濟學、政治學同社會學等嘅社會科學上都有用監犯困境嚟分析自己研究嘅現象[17],而且動物行為學同進化生物學上仲有用監犯困境嚟分析動物個體喺進化過程當中嘅博弈(進化博弈論)[18]。
以下係各界嘅例子。
喺國際關係上,軍備競賽[e 20]係指兩個或者以上嘅國家鬥提升自身嘅軍隊嘅戰鬥力-包括咗鬥培訓士兵、鬥生產武器同埋鬥開發新武器呀噉[19][20],而呢種現象被指可以用監犯困境嚟描述。想像家陣有若干個國家,對於每個國家嚟講[21][22]:
喺最基本上,想像美國同蘇聯兩個國家,「合作」表示「唔提升軍隊戰鬥力」,「背叛」表示「提升軍隊戰鬥力」。原則上,「大家齊齊冇戰鬥力」就唔會打仗(),但現實係,「人哋提升戰鬥力,自己唔提升」係一個極壞嘅情況(即係話 ,而且 )[註 4][23],所以對於兩個國家嚟講,揀「背叛」係佔優策略,而且大家齊齊揀「背叛」係成場博弈唯一一個拿殊均衡點-大致上就好似監犯困境嘅情況噉樣[21]:p. 6-7:
蘇聯揀合作 | 蘇聯揀背叛 | |
---|---|---|
美國揀合作 | ||
美國揀背叛 |
博弈論研究仲可以對軍備競賽作出以下嘅進一步分析[21]:
... 等等。
關稅戰[e 22]係國際貿易上嘅一種現象:關稅係指一個國家(或者一個經濟體)對入口或者出口嘅貨落一啲稅,好多時目的都係為咗想保護自己內部嘅生產行業-例如要由外國嚟嘅入口貨交稅,令到外國貨喺呢個國家賣嗰陣焗住要加價嚟回本,於是對於個國家嘅消費者嚟講,呢啲外國貨就變到冇咁抵買[24][25];關稅戰就係指兩個經濟體喺做貿易嗰時鬥向對方嘅貨加關稅,搞到大家賣起自己啲貨上嚟難咗,好多時最後雙方都有損失[26][27]。
家陣想像兩個國家, 同 ,佢哋分別各有兩個選擇[26]:
報償矩陣如下:
揀合作 | 揀背叛 | |
---|---|---|
揀合作 | ||
揀背叛 |
理論上,如果大家齊齊合作嘅話,噉就大家齊齊有得做自由貿易-設 做大家齊齊合作所得, 做大家齊齊背叛所得,;假想而家兩國處於「齊齊合作」嘅狀態,但其中一個國家因為某啲原因唔守關稅協定,單方面噉提高關稅(背叛),另外嗰國就會蒙受損失-由單方面提高關稅嗰個國家嘅角度睇,佢自己國貨喺國內會好賣咗,同時假如對方唔施加關稅,佢啲貨喺另外嗰個國家嘅銷情會不變,即係話 [註 5]。喺呢個時候,另外嗰個國家又會有誘因施加關稅-家陣佢嘅貨喺另外嗰個國家冇咁好賣,而佢嘅貨喺自己國內銷情不變(),而如果佢又施加返關稅落對方嘅貨嗰度,就可以令自己啲貨喺自己國內好賣返啲();於是乎 ,兩國之間就出現咗關稅戰嘅情況[26][27]。
喺實際應用上,關稅戰可以用國際協定嘅方法避免:國際之間對關稅呢家嘢有協議,唔肯守協議嘅國家會俾第啲國家罰;噉講即係話國際協議表示,揀「背叛」嘅國家要為自己嘅選擇負出代價;設代價嘅數值做 ,如果 嘅數值有返咁上下大[註 6],就會令到 數值夠細,令到 ,於是啲國家就冇誘因單方面加關稅-國際協議嘅存在改變咗場博弈嘅結構,令到「大家齊齊合作」成為一個拿殊均衡點[26][28]。
公地悲劇[e 23]係一種有關環保嘅現象:家吓想像一個由多個博弈者共同使用嘅天然資源(例如係石油或者森林),如果佢哋都有節制噉開採個資源嘅話,個資源可以好襟用,但現實發生嘅係,每個博弈者往往會以自身利益行先,過度噉開採個資源,最後搞到個資源枯竭,大家都冇得用,呢個現象就係所謂嘅公地悲劇。即係話[29][30]:
「 | 」 |
想像家陣有兩個團體, 同 ,對於一個天然資源,佢哋分別各有兩個選擇[31]:
而報償矩陣如下:
揀合作 | 揀背叛 | |
---|---|---|
揀合作 | ||
揀背叛 |
原則上,整體上最理想嘅狀態係大家合作珍惜個資源,;但同時如果其中一方作反,郁手勁開採個資源,噉佢嘅所得會變成多過對方好多,,而且會多過乖乖哋跟規矩嗰陣得到嘅,;而假設兩個團體之間有競爭,「俾對方單方面任意開採個資源」會一個非常之唔好嘅情況,而 ;如是者,。事實係,有用電腦模擬做嘅研究指,模擬一個有兩種博弈者-合作者同背叛者-嘅世界,而顧名思義,合作者傾向合作,背叛者傾向背叛,模擬發現,隨住時間過去,合作者嘅所得會明顯少過背叛者嘅,於是合作者就會受到好似進化噉嘅過程被淘汰,令到啲博弈者焗住一係改變策略、一係被淘汰。呢種情況喺現實世界頗為常見:好似係漁業噉,公海入面啲魚係公有嘅,而喺「就算自己唔濫捕,第啲人都會濫捕」嘅思想下,漁民往往會忽略對生態嘅考量大撈特撈(背叛),最後搞到海洋生態受破壞,而漁民自己嘅生計亦都會受影響(共同背叛嘅結果)[31]。
基於對監犯困境嘅思考,喺 2016 年有一班美國佐治亞州嘅科學家向當地政府提議咗一啲系統,令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣,包括係運用一個信譽系統嚟獎勵合作者(用政府獎勵令 數值升)同埋懲罰背叛者(用政府干預令到 同 數值跌),令到啲人比較有誘因合作,最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題[32]。
有人指,監犯困境嘅問題喺工商管理上都會撞到。例如係廣告戰噉:廣告係營銷嘅常見做法,指喺某啲媒體(電視同網站等等)嗰度單向噉向消費者傳達信息,並且靠噉嚟吸引佢哋買自己嘅產品。想像兩間同行嘅公司, 同 ,原則上,每間公司都大致上有兩個選擇[註 7]:
報償矩陣如下:
揀合作 | 揀背叛 | |
---|---|---|
揀合作 | ||
揀背叛 |
原則上,大家齊齊唔賣廣告係一個理想嘅情況-設計廣告同賣廣告冚唪唥都係錢同時間,唔賣廣告可以慳返好多資源,;問題係,如果是但一間公司郁手賣廣告,(假設啲廣告能夠有效噉吸引消費者)佢就有得搶走對方啲客,即係話 ;同時如果冇賣開廣告嗰間公司揼錢賣廣告,就可以爭啲客返嚟,即係 ;如是者,,兩間公司明明大家一齊唔賣廣告就可以得益最大化,但係兩間公司唔信任對方,「大家齊齊賣廣告」係一個拿殊均衡點,於是兩間公司就陷入廣告戰,而廣告成本一增加,就會損害兩間公司嘅利益[註 7]。亦都可以睇吓市場結構上有關「一個市場易唔易進入」(易進入表示易出現新嘅競爭者)方面嘅問題。
最基本嘅監犯困境唔係咁真實,所以有好多博弈論研究者都有諗點樣擴展監犯困境嘅理論模型,當中重複監犯困境[e 24]就係其中一個最重要嘅擴展監犯困境模型:重複嘅監犯困境呢個諗頭係由美國著名政治學家羅拔·阿塞羅德[e 25]喺 1984 年嗰時提出嘅,當時阿塞羅德寫咗本叫《合作嘅進化》[e 26]嘅書,佢喺書入面指出,最基本嗰個監犯困境模型冇考慮到重複[e 27]嘅問題-喺現實世界,博弈者之間好少可會淨係博弈一次,好多時會係會反覆噉多次互相博弈,博弈者有得記住對手之前嘅行為,所以會出現(例如):
... 等嘅現象。阿塞羅德做嘅呢啲分析就形成咗所謂嘅重複監犯困境模型[33][34]。
阿塞羅德進一步指出,重複嘅博弈係利他行為得以進化出嚟嘅主因:用日常用語講嘅話,對一個博弈者嚟講,對自己最有利嘅情況係次次都係自己揀背叛而對方揀合作(貪心策略);但喺實際應用上,博弈往往係重複嘅,所以博弈者有能力記住對方背叛過自己同埋報仇,於是一個群體嘅人(假設佢哋會共處一段長嘅時間)有能力合作杯葛嗰啲成日揀背叛嘅人,令到「揀背叛」變成一種長遠嚟講對個體生存不利嘅策略-自私嘅個體就有誘因多啲揀合作(利他策略)[34][35]。
喺有咗重複監犯困境嘅概念之後,博弈論研究者就開始諗個問題:响重複監犯困境之下,乜嘢策略先係最有利(最能夠令自己嘅得益有咁大得咁大)嘅呢?對於呢個問題,阿塞羅德等嘅研究者進行電腦模擬研究,佢哋行個體為本模型[e 28],喺最簡單嘅情況下即係[36]:
R
、T
、S
同 P
設定做特定嘅數值;strat
同埋「累積咗嘅總得益」 score
;strat
做決策;score = score + R
;原則上,「最成功嘅策略」係指令到個體嘅總得益最大化嘅策略,所以研究者要做嘅嘢係喺步驟 3 同 4 重複咗若干次之後,foreach 策略類型,(例如)計吓採取嗰種策略嘅個體嘅平均 score
,而呢個數值最高嗰種策略就係「最成功嘅策略」[37]。
呢啲研究發現,响呢種情況下,以牙還牙[e 29]係咁多種決定型(冇隨機性喺入面)策略當中最頑健嗰種,定義係[38]
「 | 無論如何,喺第一次博弈嗰陣都揀合作;然後每次博弈嗰陣都做對手喺打前嗰次博弈做嘅嘢(假設啲個體有充足嘅記憶能力)。 |
」 |
以牙還牙呢種策略簡單得好交關,用 BASIC 呢隻入門程式語言寫嘅話淨係用得嗰 4 行碼,但就喺好多模擬嘅比賽嗰度打低第啲策略,成為最後嘅贏家[38][39]。打後嘅研究仲有考慮埋一啲唔係決定型(即係帶有隨機性)嘅策略,例如係所謂嘅有原諒嘅以牙還牙[e 30]噉,就係指「以牙還牙,但每次要揀背叛嗰陣都有 1 至 5% 嘅機會率會改為揀合作」,而呢種策略被指喺通訊有可能出錯嘅情況下最好用:喺呢種情況下,個體可能會因為通訊錯誤-對方查實揀咗合作,但佢以為對方揀咗背叛-而陷入互相報仇嘅情況,而有原諒嘅以牙還牙就會幫佢哋脫離呢種處境[40]。
對重複監犯困境嘅進階分析仲有嘗試控制唔同嘅變數,例如正話提到,有原諒嘅以牙還牙呢種策略喺通訊有機會出錯嘅情況下會零舍成功。而通過模擬唔同嘅情況(簡單例子有改變 R
同 T
嘅數值),阿塞羅德搵到一樣重大發現-有好多種策略都可以喺重複監犯困境當中取得成功,不過假如博弈嘅重複次數有返咁上下,成功嘅策略幾乎冚唪唥都會有以下呢啲特徵[41][42]:
用比較似日常用語嘅語言嚟講嘅話,基於呢種分析,阿塞羅德做咗以下嘅結論:人係一種有社會性嘅動物,往往會一齊合作先可以做到最多嘢(),但喺合作嘅情況當中,成日都會出現機會容許某啲參與者搵第啲參與者老襯(背叛係有可能發生嘅,而且 )-即係話人嘅現實生活查實好似重複嘅監犯困境噉;喺呢種情況下,人嘅自私本性(想令自己得益有咁大得咁大)會令佢哋趨向係「友善」(對方唔背叛,自己就唔背叛)、識得原諒其他人同埋唔好成日妒忌人(睇埋無形之手);但同時,呢個世界唔係烏托邦,完全利他嘅人係缺乏靠自己生存嘅能力嘅-人實要識得喺俾人背叛嗰陣,用返背叛嚟應對,以防俾人搵老襯[43]。
同監犯困境相似嘅博弈:
... 等等。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.