監犯困境gaam1 faan2 kwan3 ging2英文prisoner's dilemma),又叫做囚徒困境cau4 tou4 kwan3 ging2,係博弈論(game theory)入面非零和博弈嘅一個代表性例子。簡單講,監犯困境係指明明大家合作就可以得益,但每個人各自揀對自己最有利嘅選擇,搞到最後一齊輸。最基本嗰種監犯困境係噉嘅:想像有兩個監犯-阿明同阿松-俾差人拉咗;差人想佢哋兩個認罪,於是就諗咗條計仔引佢哋招-差人將阿明同阿松分開,唔俾佢哋之間通訊,然後分別同佢哋講「嗱,而家我想你認罪,

  • 如果你哋兩個齊齊認罪,噉就兩個都坐 5 年監;
  • 如果你哋一個認罪一個唔出聲,噉認罪嗰個唔使坐監,唔出聲嗰個要坐 10 年;
  • 如果你哋兩個都唔招出聲,噉就兩個都坐半年。」即係話畫做矩陣嘅話,會好似以下噉,當中每格嘅兩個數字 表示阿明同阿松分別要坐幾多年[1][2]
家陣個監犯唔想坐咁耐監,佢好唔好信自己嘅同伴,一齊沉默唔出聲呢?
阿松揀認罪 阿松揀唔出聲
阿明揀認罪 5, 5 0, 10
阿明揀唔出聲 10, 0 0.5, 0.5

原則上,對兩個監犯整體嚟講,最正嘅選項係大家齊齊死都唔出聲(大家都淨係坐半年);但問題係差人唔俾佢哋通訊,兩個都唔知對方會點做(資訊不足),所以假設佢哋完全理性,佢哋係會做二五仔嘅-對於阿明嚟講,如果阿松揀唔出聲,揀認罪會係最有利嘅選擇(阿明唔使坐監),而如果阿松揀認罪,噉揀認罪依然係最有利嘅選擇(阿明坐 5 年而唔係坐 10 年)-各人各自做對自己最有利嘅選擇,互相出賣搞到大家一齊輸;差人(博弈嘅莊家)喺成件事得到最大嘅回報[1]。呢種情況喺環境保護工商管理[3]等多個領域嗰度都見得到,例子可以睇吓軍備競賽嘅現象[4][5]

博弈論仲有進階版嘅監犯困境:博弈論一個重要目的係想模擬現實世界嘅競爭,而最基本嗰款監犯困境响好多地方都唔係咁真實-例如現實嘅監犯喺做呢啲決策嗰陣,仲會考慮埋刑期以外嘅因素(做二五仔出返去可能會俾人反檯);因為噉,進階嘅監犯困境分析會考慮更多嘅因素,例如一次同多次重複監犯困境結果就可能會唔同-假想家陣兩個監犯要做決策做若干次,如果其中一個監犯喺第一次嗰陣唔合作,下次對方就有可能特登揀背叛嚟罰佢,所以監犯有誘因揀合作[6][7]

基礎 編輯

睇埋:博弈論

精確啲噉講嘅話,監犯困境可以用以下呢句嘢總結[8][9]

喺監犯困境當中,『背叛』壓倒『合作』成為佔優策略(睇下面),而且呢種博弈嘅唯一可能均衡點(睇下面)係啲參與者冚唪唥都揀『背叛』。

監犯困境嘅諗頭源自 1950 年嘅博弈論(game theory)研究[10][11]。當時喺美國智庫蘭德公司(RAND Corporation)做嘢嘅數學家梅里爾·弗勒德(Merrill Flood)同埋馬分·德里沙(Melvin Dresher)著手分析「個個都揀自私嘅選項,搞到大家最後一齊輸」嘅博弈,而打後加拿大數學家阿爾伯特·塔卡(Albert Tucker)用形式化嘅方式嚟闡述出呢種博弈,仲幫呢種博弈改咗個名,叫 prisoner's dilemma英文入面「監犯嘅兩難困境」噉解[1]

阿爾伯特·塔卡佢哋所分析嘅係最基本嗰款監犯困境,內容如下[1]

而家差人拉咗阿明同阿松兩個嫌疑犯,但唔夠證據將佢哋兩個入罪,於是差人就分開兩個犯(等佢哋兩個之間冇辦法進行通訊),並且俾佢哋有以下嘅選擇:
  • 若果兩個犯其中一個認罪,並且作証檢控對方(背叛對方;betray),而且另外嗰個唔出聲(同對方合作;cooperate),噉認罪嗰個犯就會即時獲釋,唔出聲嗰個就要坐 10 年監。
  • 若果兩個犯乜都唔講(一齊合作),噉就兩個犯都坐半年監。
  • 若果兩個都互相檢舉(互相背叛),噉就兩個都齊齊坐 5 年。

如果用報償矩陣(payoff matrix)表述上面嘅博弈,每個格嗰兩個數分別表示阿明同阿松嘅得失嘅話[註 1]

阿明唔出聲(合作) 阿明認罪(背叛)
阿松唔出聲(合作)
 
 
阿松認罪(背叛)
 
 

特性 編輯

佔優策略 編輯

古典嘅博弈論假設咗,一場博弈嘅參與者全部都係完美理性(rational)嘅-即係話,每位想像中嘅參與者(即係「監犯」)都係純利己嘅,唔會關心第啲參與者嘅利益(所以會揀對自己最有利嗰個選項),而且每位參與者都具有完全資訊(perfect information),即係完全知道嗮場博弈嘅形勢[註 2]。而家兩位參與者唔能夠同對方通訊(唔知對方會點做),噉喺呢種思路下,如果由阿明嘅角度嚟睇嘅話[12]

  • 如果阿松揀唔出聲,噉對阿明嚟講,認罪會係最利嘅選擇,因為喺呢個情況下,阿明揀認罪就唔使坐(0),揀唔出聲就要坐半年(-0.5);而
  • 如果阿松揀認罪,噉對阿明嚟講,認罪依然會係最利嘅選擇,因為喺呢個情況下,阿明揀認罪就淨係坐 5 年(-5),揀唔出聲就要坐成 10 年咁耐(-10);

而阿松都要面對同一樣嘅形勢。因為噉,假設兩位博弈者都淨係一味想令自己嘅利益有咁大得咁大,而且完全噉知道個形勢係點嘅話,噉對佢哋嚟講,「揀認罪」會係嚴格(strict)嘅佔優策略(dominant strategy):喺博弈論上,如果話一個策略係「嚴格」嘅佔優策略,即係話呢個策略係「無論對手揀乜嘢選項,都能夠令自己嘅利益最大化」嘅;而喺監犯困境下,對於是但一位參與者嚟講,揀「背叛」都係一個佔優策略,於是場博弈嘅參與者就有強烈嘅誘因揀「背叛」[12][13]

拿殊均衡點 編輯

除此之外,「大家齊齊揀背叛」仲係呢場博弈嘅拿殊均衡點(Nash equilibrium)。拿殊均衡點係博弈論上一個重要嘅概念。喺拿殊均衡點之下,每個博弈者都揀咗一個選項,而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇[14]。想像以下嘅情況:

  • 想像家陣阿明同阿松齊齊決定咗要合作,但對佢哋嚟講,佢哋有誘因將自己嘅選擇變成「背叛」(因為可以幫自己減刑);
  • 如果家陣其中一個決定咗要背叛,噉對另外嗰位博弈者嚟講,佢有誘因跟住將自己嘅選擇變成「背叛」(等自己由「坐 10 年」變成「坐 5 年」);
  • 「大家齊齊揀背叛」係一個拿殊均衡點-喺呢種情況下,大家都揀咗「背叛」,而如果是但一個人單方面噉將自己嘅選擇變成「合作」,佢會蒙受損失(由「坐 5 年」變成「坐 10 年」)。

由此可見,喺監犯困境裏面,「大家齊齊揀背叛」係唯一一個拿殊均衡點[8]。順帶一提,呢點亦係監犯困境同獵鹿博弈(stag hunt)嘅主要分別-喺獵鹿博弈當中,「齊齊合作」嘅報償夠高,令到「齊齊合作」同「齊齊背叛」一樣都係拿殊均衡點[15]

數學形式 編輯

最基本嗰款監犯困境仲可以廣義化(generalize)成更加抽象數學物體。想像家陣[1]

  • 叫兩位博弈者做「紅色」(red)同「藍色」(blue[註 3]
  • 每位博弈者都有兩個可能嘅選項-合作(cooperate)同埋背叛(betray);
  • 如果兩位博弈者齊齊揀合作,佢哋嘅報償會係  (獎勵;Reward)咁多;
  • 如果兩位博弈者齊齊揀背叛,佢哋嘅報償會係  (懲罰;Punishment)咁多;
  • 而如果兩位博弈者一個揀合作一個揀背叛,揀背叛嗰位嘅報償會係  (引誘;Temptation)咁多,而揀合作嗰位嘅報償會係  (老襯;Sucker)咁多;

將上述嘅嘢用報償矩陣嚟表達嘅話,紅色字表示紅色嗰方得到嘅報償,而藍色字表示藍色嗰方得到嘅報償[1]

紅色揀合作 紅色揀背叛
藍色揀合作
R, R
S, T
藍色揀背叛
T, S
P, P

定義上,喺監犯困境當中,以下呢條不等式成立(假設報償值係愈愈理想):

 

例: ;而且

 

用唔係咁精確嘅純文字嚟解嘅話:

紅色揀合作 紅色揀背叛
藍色揀合作
-
大輸-大贏
藍色揀背叛
大贏-大輸
-

捐錢博弈 編輯

内文:捐錢博弈

捐錢博弈(donation game)係監犯困境嘅一個特殊(狹義)情況。想像家陣場博弈個莊家同博弈者講,要求佢哋付出   咁多成本(捐錢),如果兩個人都肯捐錢,噉大家齊齊攞到   咁多嘅得益,而  ;如果佢哋齊齊唔肯捐錢,就兩個都冇得益... 等等。用報償矩陣表達嘅話,捐錢博弈係噉嘅[16]

紅色揀合作 紅色揀背叛
藍色揀合作
b-c, b-c
-c, b
藍色揀背叛
b, -c
0, 0

當中  。喺實際應用上,捐錢博弈可以用嚟分析市場[16]

基本應用 編輯

最基本嗰款監犯困境並唔係咁自然,而只係一個高度抽象化嘅數學理論情況-喺現實世界當中,啲監犯好多時都會因為驚出到去俾人反檯而唔做二五仔。不過事實表明咗,有好多現實當中嘅社會甚至自然現象都可以搵到類似監犯困境嘅現象,可以將結果畫成同樣嘅報償矩陣-即係有若干個個體要做決策,明明大家合作就可以一齊得益,但每個人各自採取自己心目中嘅佔優策略,搞到最後大家一齊蒙受損失。因為噉,監犯困境受好多領域嘅研究者關注-經濟學政治學社會學等嘅社會科學上都有用監犯困境嚟分析自己研究嘅現象[17],而且動物行為學進化生物學上仲有用監犯困境嚟分析動物個體喺進化過程當中嘅博弈(進化博弈論[18]

以下係各界嘅例子:

軍備競賽 編輯

 
廿一世紀初嘅一個美軍倉庫;個倉儲起咗好多彈藥喺度。

國際關係上,軍備競賽(arms race)係指兩個或者以上嘅國家鬥提升自身嘅軍隊嘅戰鬥力-包括咗鬥培訓士兵、鬥生產武器同埋鬥開發新武器呀噉[19][20],而呢種現象被指可以用監犯困境嚟描述。想像家陣有若干個國家,對於每個國家嚟講[21][22]

  • 佢有「提升軍隊戰鬥力」同「唔提升軍隊戰鬥力」兩個可能嘅選項;
  • 「軍隊戰鬥力高過第啲國家」對佢嚟講有利;
  • 佢有能力用自己嘅情報機構嚴格控制有關自己軍事力量實情嘅情報,即係話佢嘅軍事力量實情係一樣私密資訊(private information)-係第啲國家唔知嘅;
  • 噉亦都表示,佢唔能夠清楚知道第啲國家嘅軍事力量實情;

喺最基本上,想像美國蘇聯兩個國家,「合作」表示「唔提升軍隊戰鬥力」,「背叛」表示「提升軍隊戰鬥力」。原則上,「大家齊齊冇戰鬥力」就唔會打仗 ),但現實係,「人哋提升戰鬥力,自己唔提升」係一個極壞嘅情況(即係話  ,而且  [註 4][23],所以對於兩個國家嚟講,揀「背叛」係佔優策略,而且大家齊齊揀「背叛」係成場博弈唯一一個拿殊均衡點-大致上就好似監犯困境嘅情況噉樣[21]:p. 6-7

蘇聯揀合作 蘇聯揀背叛
美國揀合作
R, R
S, T
美國揀背叛
T, S
P, P

博弈論研究仲可以對軍備競賽作出以下嘅進一步分析[21]

  • 「提升軍隊戰鬥力」係需要成本嘅-養士兵、生產武器同研發武器冚唪唥都需要花費資源,例如係响冷戰時期,美國同蘇聯之間嘅軍備競賽就爲蘇聯帶嚟咗沉重嘅經濟負擔;設   做提升戰鬥力所需嘅成本,理論上如果   數值有返咁上下大,就會令到提升戰鬥力嘅最後所得(  同埋   嘅數值)夠細,就有可能令啲國家缺乏提升戰鬥力嘅誘因。
  • 博弈者可以有個體差異(睇埋有限理性),即係話有啲博弈者冇咁鍾意提升戰鬥力,主觀覺得   數值大,同時噉亦都表示,每位博弈者都要評估第啲博弈者嘅個性(軍事情報相關嘅嘢),每位博弈者心目中都有一個概率分佈,反映佢心目中「博弈者   係呢款呢款個性嘅機會率」;原則上,如果一個國家嘅決策者覺得第啲國家嘅決策者都係冇誘因提升戰鬥力嘅,噉就會令佢哋相信第啲國家都主觀覺得   數值大,更加有理由相信第啲國家會揀背叛嘅機會率低,於是就會比較有誘因揀合作。

... 等等。

關稅戰 編輯

 
2007 年一架美國貨船裝住啲貨駛經北冰洋。呢啲活動對國際貿易嚟講不可或缺。
内文:關稅戰

關稅戰(tariff war)係國際貿易上嘅一種現象:關稅(tariff)係指一個國家(或者一個經濟體)對入口或者出口落一啲,好多時目的都係為咗想保護自己內部嘅生產行業-例如要由外國嚟嘅入口貨交稅,令到外國貨喺呢個國家賣嗰陣焗住要加價嚟回本,於是對於個國家嘅消費者嚟講,呢啲外國貨就變到冇咁抵買[24][25];關稅戰就係指兩個經濟體喺做貿易嗰時鬥向對方嘅貨加關稅,搞到大家賣起自己啲貨上嚟難咗,好多時最後雙方都有損失[26][27]

家陣想像兩個國家,  ,佢哋分別各有兩個選擇[26]

  • 提高關稅,保護自己嘅國內貨(背叛);
  • 同對方達成關稅上嘅協定,降低關稅(合作);

報償矩陣如下:

 合作  背叛
 合作
R, R
S, T
 背叛
T, S
P, P

理論上,如果大家齊齊合作嘅話,噉就大家齊齊有得做自由貿易-設   做大家齊齊合作所得,  做大家齊齊背叛所得, ;假想而家兩國處於「齊齊合作」嘅狀態,但其中一個國家因為某啲原因唔守關稅協定,單方面噉提高關稅(背叛),另外嗰國就會蒙受損失-由單方面提高關稅嗰個國家嘅角度睇,佢自己國貨喺國內會好賣咗,同時假如對方唔施加關稅,佢啲貨喺另外嗰個國家嘅銷情會不變,即係話   [註 5]。喺呢個時候,另外嗰個國家又會有誘因施加關稅-家陣佢嘅貨喺另外嗰個國家冇咁好賣,而佢嘅貨喺自己國內銷情不變( ),而如果佢又施加返關稅落對方嘅貨嗰度,就可以令自己啲貨喺自己國內好賣返啲( );於是乎  ,兩國之間就出現咗關稅戰嘅情況[26][27]

喺實際應用上,關稅戰可以用國際協定嘅方法避免:國際之間對關稅呢家嘢有協議,唔肯守協議嘅國家會俾第啲國家罰;噉講即係話國際協議表示,揀「背叛」嘅國家要為自己嘅選擇負出代價;設代價嘅數值做  ,如果   嘅數值有返咁上下大[註 6],就會令到   數值夠細,令到  ,於是啲國家就冇誘因單方面加關稅-國際協議嘅存在改變咗場博弈嘅結構,令到「大家齊齊合作」成為一個拿殊均衡點[26][28]

公地悲劇 編輯

 
一笪大規模斬樹過後嘅土地;大家齊齊勁開採天然資源,最後可能會搞到資源枯竭,到時大家都冇得用。
内文:公地悲劇

公地悲劇(tragedy of the commons)係一種有關環保嘅現象:家吓想像一個由多個博弈者共同使用嘅天然資源(例如係石油或者森林),如果佢哋都有節制噉開採個資源嘅話,個資源可以好襟用,但現實發生嘅係,每個博弈者往往會以自身利益行先,過度噉開採個資源,最後搞到個資源枯竭,大家都冇得用,呢個現象就係所謂嘅公地悲劇。即係話[29][30]

公地悲劇係指一個事實:凡係『屬於大家嘅公物』往往就係『最少人關注同埋照顧嘅財產』。

想像家陣有兩個團體  ,對於一個天然資源,佢哋分別各有兩個選擇[31]

  • 過度開採個資源(背叛);
  • 乖乖哋跟規矩噉用個資源(合作);

而報償矩陣如下:

 合作  背叛
 合作
R, R
S, T
 背叛
T, S
P, P

原則上,整體上最理想嘅狀態係大家合作珍惜個資源, ;但同時如果其中一方作反,郁手勁開採個資源,噉佢嘅所得會變成多過對方好多, ,而且會多過乖乖哋跟規矩嗰陣得到嘅, ;而假設兩個團體之間有競爭,「俾對方單方面任意開採個資源」會一個非常之唔好嘅情況,而  ;如是者, 。事實係,有用電腦模擬做嘅研究指,模擬一個有兩種博弈者-合作者同背叛者-嘅世界,而顧名思義,合作者傾向合作,背叛者傾向背叛,模擬發現,隨住時間過去,合作者嘅所得會明顯少過背叛者嘅,於是合作者就會受到好似進化噉嘅過程被淘汰,令到啲博弈者焗住一係改變策略、一係被淘汰。呢種情況喺現實世界頗為常見:好似係漁業噉,公海入面啲係公有嘅,而喺「就算自己唔濫捕,第啲人都會濫捕」嘅思想下,漁民往往會忽略對生態嘅考量大撈特撈(背叛),最後搞到海洋生態受破壞,而漁民自己嘅生計亦都會受影響(共同背叛嘅結果)[31]

基於對監犯困境嘅思考,喺 2016 年有一班美國佐治亞州科學家向當地政府提議咗一啲系統,令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣,包括係運用一個信譽系統嚟獎勵合作者(用政府獎勵令   數值升)同埋懲罰背叛者(用政府干預令到    數值跌),令到啲人比較有誘因合作,最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題[32]

廣告戰 編輯

 
呢條街有一柞招牌;間間公司都想爭消費者嘅注意力

有人指,監犯困境嘅問題喺工商管理上都會撞到。例如係廣告戰噉:廣告(advertising)係營銷嘅常見做法,指喺某啲媒體(電視網站等等)嗰度單向噉向消費者傳達信息,並且靠噉嚟吸引佢哋買自己嘅產品。想像兩間同行嘅公司  ,原則上,每間公司都大致上有兩個選擇[註 7]

  • 揼多啲錢嚟賣廣告同諗計提高廣告嘅質量,以求壓倒第啲公司(背叛);
  • 同第啲公司達成協議,一齊唔賣咁多廣告,減少賣廣告方面嘅開支(合作);

報償矩陣如下:

 合作  背叛
 合作
R, R
S, T
 背叛
T, S
P, P

原則上,大家齊齊唔賣廣告係一個理想嘅情況-設計廣告同賣廣告冚唪唥都係錢同時間,唔賣廣告可以慳返好多資源, ;問題係,如果是但一間公司郁手賣廣告,(假設啲廣告能夠有效噉吸引消費者)佢就有得搶走對方啲客,即係話  ;同時如果冇賣開廣告嗰間公司揼錢賣廣告,就可以爭啲客返嚟,即係  ;如是者, ,兩間公司明明大家一齊唔賣廣告就可以得益最大化,但係兩間公司唔信任對方,「大家齊齊賣廣告」係一個拿殊均衡點,於是兩間公司就陷入廣告戰,而廣告成本一增加,就會損害兩間公司嘅利益[註 7]。亦都可以睇吓市場結構(market structure)上有關「一個市場易唔易進入」(易進入表示易出現新嘅競爭者)方面嘅問題。

重複監犯困境 編輯

 
2011 年保加利亞一個鎮仔;人類多數都會成大班噉聚喺一笪地方住,長時間噉共處。

最基本嘅監犯困境唔係咁真實,所以有好多博弈論研究者都有諗點樣擴展監犯困境嘅理論模型,當中重複監犯困境(iterated prisoner's dilemma)就係其中一個最重要嘅擴展監犯困境模型:重複嘅監犯困境呢個諗頭係由美國著名政治學家羅拔·阿塞羅德(Robert Axelrod)喺 1984 年嗰時提出嘅,當時阿塞羅德寫咗本叫《合作嘅進化》(The Evolution of Cooperation)嘅書,佢喺書入面指出,最基本嗰個監犯困境模型冇考慮到重複性(iteration)嘅問題-喺現實世界,博弈者之間好少可會淨係博弈一次,好多時會係會反覆噉多次互相博弈,博弈者有得記住對手之前嘅行為,所以會出現(例如):

  • 記得個對手打前揀過合作,所以預對方今次會繼續揀合作(信任)、
  • 記得個對手打前背叛過自己,但自己今次依然揀合作(原諒)、同埋
  • 記得個對手打前背叛過自己,自己今次揀背叛(報仇)、

... 等嘅現象。阿塞羅德做嘅呢啲分析就形成咗所謂嘅重複監犯困境模型[33][34]

阿塞羅德進一步指出,重複嘅博弈係利他行為(altruistic behavior)得以進化出嚟嘅主因:用日常用語講嘅話,對一個博弈者嚟講,對自己最有利嘅情況係次次都係自己揀背叛而對方揀合作(貪心策略);但喺實際應用上,博弈往往係重複嘅,所以博弈者有能力記住對方背叛過自己同埋報仇,於是一個群體嘅人(假設佢哋會共處一段長嘅時間)有能力合作杯葛嗰啲成日揀背叛嘅人,令到「揀背叛」變成一種長遠嚟講對個體生存不利嘅策略-自私嘅個體就有誘因多啲揀合作(利他策略)[34][35]

以牙還牙 編輯

内文:以牙還牙

喺有咗重複監犯困境嘅概念之後,博弈論研究者就開始諗個問題:响重複監犯困境之下,乜嘢策略先係最有利(最能夠令自己嘅得益有咁大得咁大)嘅呢?對於呢個問題,阿塞羅德等嘅研究者進行電腦模擬(computer simulation)研究,佢哋行個體為本模型(agent-based modeling),喺最簡單嘅情況下即係[36]

  1. RTSP 設定做特定嘅數值;
  2. 建立   個模擬嘅個體,每個個體有兩個屬性-「採取嘅策略」 strat 同埋「累積咗嘅總得益」 score
  3. 是但抽兩個個體,俾佢哋進行監犯困境博弈,每位模擬嘅博弈者會按佢嘅 strat決策
  4. 按每個個體做嘅決定,計佢嘅總得益點變,例如兩個都揀咗合作嘅話,噉佢哋每個人都 score = score + R
  5. 重複步驟 3 同 4 若干次;

原則上,「最成功嘅策略」係指令到個體嘅總得益最大化嘅策略,所以研究者要做嘅嘢係喺步驟 3 同 4 重複咗若干次之後,foreach 策略類型,(例如)計吓採取嗰種策略嘅個體嘅平均 score,而呢個數值最高嗰種策略就係「最成功嘅策略」[37]

呢啲研究發現,响呢種情況下,以牙還牙(tit for tat)係咁多種決定性(deterministic;指冇隨機性喺入面)策略當中最頑健嗰種,定義係[38]

無論如何,喺第一次博弈嗰陣都揀合作;然後每次博弈嗰陣都做對手喺打前嗰次博弈做嘅嘢(假設啲個體有充足嘅記憶能力)。

以牙還牙呢種策略簡單得好交關,用 BASIC 呢隻入門程式語言寫嘅話淨係用得嗰 4 行,但就喺好多模擬嘅比賽嗰度打低第啲策略,成為最後嘅贏家[38][39]。打後嘅研究仲有考慮埋一啲唔係決定性(即係帶有隨機性)嘅策略,例如係所謂嘅有原諒嘅以牙還牙(tit for tat with forgiveness)噉,就係指「以牙還牙,但每次要揀背叛嗰陣都有 1 至 5% 嘅機會率會改為揀合作」,而呢種策略被指喺通訊有可能出錯嘅情況下最好用:喺呢種情況下,個體可能會因為通訊錯誤-對方查實揀咗合作,但佢以為對方揀咗背叛-而陷入互相報仇嘅情況,而有原諒嘅以牙還牙就會幫佢哋脫離呢種處境[40]

四大特徵 編輯

 
一群圍攻緊隻美洲野牛;美洲野牛好大隻,一隻狼唔能夠獨力獵殺佢哋,但成群狼合作就做得到( )。

對重複監犯困境嘅進階分析仲有嘗試控制唔同嘅變數,例如正話提到,有原諒嘅以牙還牙呢種策略喺通訊有機會出錯嘅情況下會零舍成功。而通過模擬唔同嘅情況(簡單例子有改變 RT 嘅數值),阿塞羅德搵到一樣重大發現-有好多種策略都可以喺重複監犯困境當中取得成功,不過假如博弈嘅重複次數有返咁上下,成功嘅策略幾乎冚唪唥都會有以下呢啲特徵[41][42]

  • 友善(nice):對手一日未有揀背叛,種策略就唔會揀背叛,而如果   而且「自己背叛會引致對方打後改為揀背叛」,「友善」可以令自己利益最大化;用日常用語講嘅話,即係「對其他人好」會防止佢哋報仇,所以對自己有利。
  • 報仇性(retaliating):但阿塞羅德亦都發現,成功嘅策略唔會係盲目嘅利他主義-佢發現,「永遠淨係揀合作」係一種非常惡劣嘅策略,會搞到個個體係噉勁俾人背叛而最後輸(假設  ,而且   數值有返咁上下大),所以成功嘅策略唔會無條件噉揀合作,實要喺對方會揀背叛嗰陣跟住揀背叛。
  • 會原諒(forgiving):成功嘅策略亦都要有能力原諒-喺以牙還牙同類似嘅策略下,多數嘅個體都係「只要對手合作,就會跟住合作」嘅,而如果兩個個體之間嘅博弈出現通訊錯誤等嘅嘢,令到是但一個做咗一吓背叛舉動,就會搞到雙方爭住揀背叛(進入報仇循環),而如果其中一方跟住揀咗合作(就算呢吓合作舉動係因為隨機性而起嘅都好),就有可能令雙方去返齊齊合作嘅狀態,而假如   而且   數值有返咁上下大,噉有可能會令到利益長遠嚟講大啲。
  • 唔妒忌(non-envious):唔會嘗試一定要自己報償多過對手先開心,噉即係話採取呢種策略嘅個體喺大家齊齊合作(大家所得都係  )嗰陣會滿足。

用比較似日常用語嘅語言嚟講嘅話,基於呢種分析,阿塞羅德做咗以下嘅結論:人係一種有社會性(sociality)嘅動物,往往會一齊合作先可以做到最多嘢( ),但喺合作嘅情況當中,成日都會出現機會容許某啲參與者搵第啲參與者老襯(背叛係有可能發生嘅,而且  )-即係話人嘅現實生活查實好似重複嘅監犯困境噉;喺呢種情況下,人嘅自私本性(想令自己得益有咁大得咁大)會令佢哋趨向係「友善」(對方唔背叛,自己就唔背叛)、識得原諒其他人同埋唔好成日妒忌人(睇埋無形之手);但同時,呢個世界唔係烏托邦,完全利他嘅人係缺乏靠自己生存嘅能力嘅-人實要識得喺俾人背叛嗰陣,用返背叛嚟應對,以防俾人搵老襯[43]

相關博弈 編輯

  • 懦夫博弈(chicken [註 8]):想像而家有兩個人,佢哋揸住電單車向住對方迎頭衝刺,每個都有兩個選擇揀-直去( )同埋做懦夫( ),如果佢哋兩個都揀   嘅話,佢哋會相撞(報償: ),而如果其中一方揀   另一方揀  ,雙方都冇事,但揀   嗰個人會俾人笑係冇膽鬼( )而直去嗰個人會俾人讚佢大膽( );懦夫博弈同監犯困境之間嘅主要分別在於,「齊齊背叛」(齊齊直去)喺監犯困境當中係佔優策略,但係喺懦夫博弈當中唔係[44][45]
  • 蜈蚣博弈(centipede game):一種重複博弈;想像兩個博弈者,佢哋有一個裝住錢嘅壺,喺任何一刻,個壺會喺是但一個博弈者手上,每當個壺去到一個博弈者手上嗰陣,佢有兩個選擇:
    • 由個壺嗰度攞錢,而且呢一吓攞嘅量多過之前嗰吓攞嘅(背叛);
    • 將個壺傳俾對手(合作);噉做會令自己「第時由個壺嗰度得到嘅錢嘅量」增加;
    • 於是博弈者就要面對好似監犯困境噉嘅處境-合作令到大家齊齊得到多啲錢,或者背叛搞到大家總所得少咗[46]
  • 食客困境(unscrupulous diner's dilemma):基本上就係有   個參與者嘅監犯困境:想像   個人一齊出去食飯,而喺臨落單之前,佢哋同意埋單嗰陣每個人俾嘅錢會係總錢除以  ;於是家陣每個人都會決定要嗌「貴嘅嘢食」定「平嘅嘢食」,假想貴嘢食好味啲,但未至於好味到啲人會肯喺單獨食飯(要自己俾嗮個價錢)嗰時嗌,形成咗一個好似監犯困境噉嘅情況-如果其中一位食客嗌貴嘢食,噉就最後大家齊齊要俾多啲錢,但同時,如果佢嗌貴嘢食而第啲食客嗌平嘢食,佢就著數咗[47]
  • 交換禮物博弈(gift-exchange game)

... 等等。

註釋 編輯

  1. 以「幾多年嘅自由」嚟量度,例如「 」表示兩個都喪失半年嘅自由。
  2. 廿世紀嘅經濟學研究經已開始放棄完美理性嘅假設,詳情可以睇吓行為經濟學同埋行為博弈論
  3. 或者是但揀兩個名嗌佢哋。
  4. 現實表明咗,「防禦性」嘅武器往往可以輕易噉攞嚟做攻擊用途,所以「防禦性」武器同「攻擊性」武器喺呢方面分別唔明顯。
  5. 進階嘅博弈論分析仲諗到,「賣嘢俾對方」未必淨係有得益-例如如果兩國打緊仗,噉賣高質貨俾對方可能會搞到自己有第啲代價(敵國強咗),即係背叛嘅實際得益會係  ,當中  
  6. 資訊扮演咗重要角色:一般嚟講,國家會知第啲國家有冇落關稅,所以一有國家落關稅,第啲國家就會即刻作出懲罰性嘅行動;唔似得(例如)軍備競賽嗰陣噉,一個國家有能力操控情報,可以喺第啲國家唔知嘅情況下提升軍力,搞到國際協議冇咁能夠控制軍備競賽。
  7. 7.0 7.1 可以睇吓 The Prisoner's Dilemma in Business and the Economy
  8. 呢個字喺英文入面可以指「」,但又可以係俗語「冇膽鬼」噉解。

睇埋 編輯

參考 編輯

  • Amadae, S. (2016). "Prisoner's Dilemma", Prisoners of Reason. Cambridge University Press, NY, pp. 24–61.
  • Aumann, Robert (1959). "Acceptable points in general cooperative n-person games". In Luce, R. D.; Tucker, A. W. (eds.). Contributions to the Theory 23 of Games IV. Annals of Mathematics Study. 40. Princeton N.J.: Princeton University Press. pp. 287–324. MR 0104521.
  • Axelrod, R. (1984). The Evolution of Cooperation. ISBN 0-465-02121-2
  • Bicchieri, Cristina (1993). Rationality and Coordination. Cambridge University Press.
  • Chess, David M. (December 1988). "Simulating the evolution of behavior: the iterated prisoners' dilemma problem". Complex Systems'. 2 (6): 663–70.
  • Dresher, M. (1961). The Mathematics of Games of Strategy: Theory and Applications. Prentice-Hall, Englewood Cliffs, NJ.
  • Greif, A. (2006). Institutions and the Path to the Modern Economy: Lessons from Medieval Trade. Cambridge University Press, Cambridge, UK.
  • Kopelman, Shirli (February 2020). "Tit for tat and beyond: the legendary work of Anatol Rapoport". Negotiation and Conflict Management Research. 13 (1): 60–84. doi:10.1111/ncmr.12172.
  • Poundstone, William (1993). Prisoner's Dilemma (1st Anchor Books ed.). New York: Anchor. ISBN 0-385-41580-X.
  • Rapoport, Anatol and Albert M. Chammah (1965). Prisoner's Dilemma. University of Michigan Press.

編輯

  1. 1.0 1.1 1.2 1.3 1.4 1.5 Poundstone, William (1993). Prisoner's Dilemma (1st Anchor Books ed.). New York: Anchor. pp. 8, 117.
  2. Milovsky, Nicholas. "The Basics of Game Theory and Associated Games". Retrieved 11 February 2014.
  3. Ormerod, Paul (2010-12-22). Why Most Things Fail.
  4. Toh-Kyeong, Ahn; Ostrom, Elinor; Walker, James (Sep 5, 2002). "Incorporating Motivational Heterogeneity into Game-Theoretic Models of Collective Action". Public Choice. 117 (3–4): 295–314.
  5. Oosterbeek, Hessel; Sloof, Randolph; Van de Kuilen, Gus (Dec 3, 2003). "Cultural Differences in Ultimatum Game Experiments: Evidence from a Meta-Analysis" (PDF). Experimental Economics. 7 (2): 171–88.
  6. Deutsch, M. (1958). Trust and suspicion. Journal of Conflict Resolution, 2(4), 265–279.
  7. Rapoport, A., & Chammah, A. M. (1965). Prisoner's Dilemma: A study of conflict and cooperation. Ann Arbor, MI: University of Michigan Press.
  8. 8.0 8.1 Fehr, Ernst; Fischbacher, Urs (Oct 23, 2003). "The Nature of human altruism". Nature. 425 (6960): 785–91.
  9. Tversky, Amos; Shafir, Eldar (2004). Preference, belief, and similarity: selected writings (PDF). Massachusetts Institute of Technology Press.
  10. Myerson, Roger B. (1991). Game Theory: Analysis of Conflict. Harvard University Press, p. 1.
  11. What is Game Theory?.
  12. 12.0 12.1 Bicchieri, C. (2004). Rationality and game theory. The Oxford handbook of rationality, 182-205.
  13. Tanimoto, J., & Sagara, H. (2007). Relationship between dilemma occurrence and the existence of a weakly dominant strategy in a two-player symmetric game. BioSystems, 90(1), 105-114.
  14. Myerson, R. B. (1978). Refinements of the Nash equilibrium concept. International journal of game theory, 7(2), 73-80.
  15. O'Neill, B. (2001). Honor, symbols, and war. University of Michigan Press.
  16. 16.0 16.1 Hilbe, Christian; Martin A. Nowak; Karl Sigmund (April 2013). "Evolution of extortion in Iterated Prisoner's Dilemma games (PDF)". PNAS. 110 (17): 6913–18.
  17. Hamburger, H. (1973). N‐person prisoner's dilemma 互聯網檔案館歸檔,歸檔日期2021年3月20號,. (PDF). Journal of Mathematical Sociology, 3(1), 27-48.
  18. Press, W. H., & Dyson, F. J. (2012). Iterated Prisoner's Dilemma contains strategies that dominate any evolutionary opponent 互聯網檔案館歸檔,歸檔日期2021年3月20號,. (PDF). Proceedings of the National Academy of Sciences, 109(26), 10409-10413.
  19. Smith, Theresa Clair (1980). "Arms Race Instability and War". Journal of Conflict Resolution. 24 (2): 253–284.
  20. Kydd, A. (1997). Game theory and the spiral model. World Politics, 371-400.
  21. 21.0 21.1 21.2 Baliga, S., & Sjöström, T. (2004). Arms races and negotiations. The Review of Economic Studies, 71(2), 351-369.
  22. Schelling, T. C. (1958). The strategy of conflict. Prospectus for a reorientation of game theory. Journal of Conflict Resolution, 2(3), 203-264.
  23. Jervis, R. (2017). Perception and misperception in international politics: New edition. Princeton University Press.
  24. Dal Bianco, A., Boatto, V. L., Caracciolo, F., & Santeramo, F. G. (2016). Tariffs and non-tariff frictions in the world wine trade. European Review of Agricultural Economics, 43(1), 31-57.
  25. Syropoulos, C. (2002). Optimum tariffs and retaliation revisited: how country size matters. The Review of Economic Studies, 69(3), 707-727.
  26. 26.0 26.1 26.2 26.3 Gowa, J., & Mansfield, E. D. (2015). Power politics and international trade. In THE POLITICAL ECONOMY OF INTERNATIONAL TRADE (pp. 37-49).
  27. 27.0 27.1 Winchester, N. (2006). A classroom tariff-setting game 互聯網檔案館歸檔,歸檔日期2021年3月29號,. (PDF). The Journal of Economic Education, 37(4), 431-441.
  28. Fudenberg, D., & Maskin, E. (2009). The folk theorem in repeated games with discounting or with incomplete information. In A Long-Run Collaboration On Long-Run Games (pp. 209-230).
  29. Hardin, G. (1968). The tragedy of the commons. Science, 162(3859), 1243-1248.
  30. Milinski, M., Semmann, D., & Krambeck, H. J. (2002). Reputation helps solve the 'tragedy of the commons'. Nature, 415(6870), 424.
  31. 31.0 31.1 Weitz, J. S., Eksin, C., Paarporn, K., Brown, S. P., & Ratcliff, W. C. (2016). An oscillating tragedy of the commons in replicator dynamics with game-environment feedback. Proceedings of the National Academy of Sciences, 113(47), E7518-E7525.
  32. Game theory shows how tragedies of the commons might be averted.
  33. Axelrod, Robert (1984), The Evolution of Cooperation, Basic Books.
  34. 34.0 34.1 Axelrod, R., & Hamilton, W. D. (1981). The evolution of cooperation (PDF). Science, 211(4489), 1390-1396.
  35. Dal Bó, Pedro; Fréchette, Guillaume R. (2019). "Strategy Choice in the Infinitely Repeated Prisoner's Dilemma". American Economic Review. 109 (11): 3929–3952.
  36. Shoham, Yoav; Leyton-Brown, Kevin (2009). Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations. Cambridge University Press.
  37. Axelrod's Tournament. Stanford Computer Science.
  38. 38.0 38.1 Nowak, M., & Sigmund, K. (1993). A strategy of win-stay, lose-shift that outperforms tit-for-tat in the Prisoner's Dilemma game (PDF). Nature, 364(6432), 56-58.
  39. Axelrod, R. (1980). More effective choice in the prisoner's dilemma (PDF). Journal of conflict resolution, 24(3), 379-403.
  40. Grim, P. (1995). The greater generosity of the spatialized prisoner's dilemma. Journal of theoretical Biology, 173(4), 353-359.
  41. Beaufils, B., Delahaye, J. P., & Mathieu, P. (1997, July). Our meeting with gradual, a good strategy for the iterated prisoner's dilemma. In Proceedings of the Fifth International Workshop on the Synthesis and Simulation of Living Systems (pp. 202-209). MIT press.
  42. Wallace, H. M., Exline, J. J., & Baumeister, R. F. (2008). Interpersonal consequences of forgiveness: Does forgiveness deter or encourage repeat offenses?. Journal of Experimental Social Psychology, 44(2), 453-460.
  43. Ellis, T. S., & Yao, X. (2007, September). Evolving cooperation in the non-iterated prisoner’s dilemma: A social network inspired approach. In 2007 IEEE Congress on Evolutionary Computation (pp. 736-743). IEEE.
  44. Rapoport, A., & Chammah, A. M. (1966). The game of chicken. American Behavioral Scientist, 10(3), 10-28.
  45. Cheng, S. F., Reeves, D. M., Vorobeychik, Y., & Wellman, M. P. (2004). Notes on equilibria in symmetric games.
  46. McKelvey, R. & Palfrey, T. (1992). "An experimental study of the centipede game". Econometrica. 60 (4): 803–836.
  47. Gneezy, U., Haruvy, E., & Yafe, H. (2004). The inefficiency of splitting the bill. The Economic Journal, 114(495), 265-280.

出面網頁 編輯