首頁> 其他類型> 心理學與博弈論> 混合策略均衡點:警察與小偷的博弈

混合策略均衡點:警察與小偷的博弈

2024-10-11 16:43:40 作者: 徐文

  是不是所有博弈均存在一個純策略(純策略是指參與者在其策略空間中選取的唯一確定的策略)的納什均衡點呢?答案是否定的。除了上面敘說多次的、大家比較熟悉的純策略均衡點外,有的博弈並沒有一個確定的唯一的策略,而是存在一個混合策略(混合策略是指參與者採取的不是確定的唯一的策略,而是在其策略空間中以概率來選擇不同策略)均衡點。下面我們將以警察與小偷的博弈為例對混合策略均衡點進行說明。

  某小鎮只有一名巡邏警察,他一個人要負責整個鎮的治安。假定該小鎮主要分為A、B兩區,A區有一家建設銀行,B區有一家金銀首飾店。再假定這個小鎮有一個小偷,要對該鎮實施偷盜行為。因為沒有分身術,警察一次只能在一個區巡邏;而對於小偷來說,一次也只能去一個地方行竊。

  假定A區建設銀行需要保護的財產為2萬元,B區首飾店的財產價值1萬元。若警察在A區巡邏,而小偷也恰巧選擇去了該地,小偷就會被警察當場抓住,該區建設銀行的2萬元財產就不會損失;若警察在A區巡邏,而小偷卻選擇去了B區,因沒有警察的保護,小偷偷盜成功,B區首飾店的1萬元財產將分文不剩,全落進小偷的腰包。

  在這種情況下,警察要怎麼巡邏才能使效果最好呢?

  請記住𝖻𝖺𝗇𝗑𝗂𝖺𝖻𝖺.𝖼𝗈𝗆網站,觀看最快的章節更新

  如果按照先前的思路——只能選取一個確定的唯一的策略,那很明顯的做法是:警察在A區巡邏,可以保護該區建設銀行的2萬元財產不被偷竊。而小偷去B區,偷竊一定成功,B區首飾店的1萬元財產盡歸小偷所有。也就是說警察的收益是2萬元,而小偷的收益是1萬元。

  但是這種做法是警察的最佳策略嗎?存不存在一種更好的策略或者說能不能對這種策略進行改進呢?

  若警察在A區或B區巡邏,而小偷也正好選擇去A區或B區,則小偷無法實施偷盜,此時警察的收益為3(保住A區建設銀行和B區首飾店共3萬元財產),小偷的收益為0(沒有收益),記作(3,0)。

  若警察在A區巡邏,而小偷去B區偷盜,此時,警察的收益為2(保住A區建設銀行2萬元財產),小偷的收益為1(成功偷盜B區首飾店1萬元財產),記作(2,1)。

  若警察在B區巡邏,而小偷去A區偷盜,此時,警察的收益為1(保住B區首飾店1萬元財產),小偷的收益為2(成功偷盜A區建設銀行2萬元財產),記作(1,2)。

  警察與小偷的收益可寫成如下的收益矩陣:

  由上面分析,我們可以得出這個博弈沒有純策略納什均衡點,而有混合策略均衡點。在混合策略均衡點下,雙方的策略選擇是其最優策略選擇。

  此時,警察的一個最佳選擇是:用抽籤的方法決定去A區巡邏還是去B區巡邏。因為A區建設銀行的財產價值是B區首飾店的兩倍,所以用兩個簽(比如1、2)代表去A區巡邏,一個簽(比如3)代表去B區巡邏。如果抽到1、2號簽,就去A區巡邏;如果抽到3號簽,就去B區巡邏。這樣警察就有2/3的概率去A區巡邏,1/3的概率去B區巡邏,其概率的大小與巡邏地的財產價值成正比。

  而小偷的最優選擇也是同樣以抽籤的辦法決定去A區行竊還是去B區偷盜,只是與警察相反:小偷抽到1、2號簽去B區行竊,抽到3號簽去A區行竊。那麼,小偷就有1/3的概率去A區偷盜,2/3的概率去B區偷盜。

  上面所說的警察與小偷所採取的策略便是混合策略。

  按上述混合策略,警察的總期望收益是7/3萬元,與得2萬元收益的只巡邏A區的策略相比,明顯得到了提高。

  原因如下:

  當警察去A區巡邏時,小偷有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏A區的期望收益為7/3(1/3×3+2/3×2=7/3)萬元;當警察去B區巡邏時,小偷同樣有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏B區的期望收益為7/3(1/3×1+2/3×3=7/3)萬元。警察的總期望收益為7/3(2/3×7/3+1/3×7/3=7/3)萬元。

  同理,我們也可知小偷採取混合策略的總期望收益是2/3萬元,比得1萬元收益的只偷盜B區的策略(前提是警察只巡邏A區)要差。

  當博弈一方所得為另一方所失時,對於博弈的任何一方而言,此時只有混合策略均衡點,而不可能有純策略的納什均衡點。


關閉