警察與小偷的博弈
2024-10-11 04:56:55
作者: 徐文
是不是所有博弈都存在一個純策略(指參與者在其策略空間中選取的唯一確定的策略)的納什均衡點呢?答案是否定的。除了上面敘說多次的、大家比較熟悉的純策略均衡點外,有的博弈並沒有一個確定的、唯一的策略,而是存在一個混合策略(指參與者採取的不是確定的唯一的策略,而是在其策略空間中以概率來選擇不同策略)均衡點。下面我們將以警察與小偷的博弈為例,對混合策略均衡點進行說明。
某小鎮只有一名巡邏警察,他一個人要負責整個鎮的治安。假定該小鎮主要分為A、B兩區,A區有一家建設銀行,B區有一家金銀首飾店。再假定這個小鎮有一個小偷,要對該鎮實施偷盜行為。因為沒有分身術,警察一次只能在一個區巡邏;而對於小偷來說,一次也只能去一個地方行竊。
假定A區建設銀行需要保護的財產為2萬元,B區首飾店的財產價值1萬元。若警察在A區巡邏,而小偷也恰巧選擇去了該地,小偷就會被警察當場抓住,該區建設銀行的2萬元財產就不會損失;若警察在A區巡邏,而小偷卻選擇去了B區,因沒有警察的保護,小偷偷盜成功,B區首飾店的1萬元財產將分文不剩,全落進小偷的腰包。
在這種情況下,警察要怎樣巡邏才能使效果最好呢?
如果按照先前的思路——只能選取一個確定的唯一的策略,那麼明顯的做法是:警察在A區巡邏,可以保護該區建設銀行的2萬元財產不被偷竊。而小偷去B區,偷竊一定成功,B區首飾店的1萬元財產盡歸小偷所有。也就是說警察的收益是2萬元,而小偷的收益是1萬元。
但是,這種做法是警察的最佳策略嗎?存不存在一種更好的策略或者說能不能對這種策略進行改進呢?
若警察在A區或B區巡邏,而小偷也正好選擇去A區或B區,則小偷無法實施偷盜,此時警察的收益為3(保住A區建設銀行和B區首飾店共3萬元財產),小偷的收益為0(沒有收益),記作(3,0)。
若警察在A區巡邏,而小偷去B區偷盜,此時,警察的收益為2(保住A區建設銀行2萬元財產),小偷的收益為1(成功偷盜B區首飾店1萬元財產),記作(2,1)。
若警察在B區巡邏,而小偷去A區偷盜,此時,警察的收益為1(保住B區首飾店1萬元財產),小偷的收益為2(成功偷盜A區建設銀行2萬元財產),記作(1,2)。
警察與小偷的收益可寫成如下的收益矩陣:
警察與小偷博弈
小偷
盜竊A區 盜竊B區
警察巡邏A區 3,0 2,1巡邏B區 1,2 3,0
由上面分析,我們可以得出這個博弈沒有純策略納什均衡點,只有混合策略均衡點。在混合策略均衡點下,雙方的策略選擇是其最優策略選擇。
此時,警察的一個最佳選擇是:用抽籤的方法決定去A區巡邏還是去B區巡邏。因為A區建設銀行的財產價值是B區首飾店的兩倍,所以用兩個簽(比如1、2)代表去A區巡邏,一個簽(比如3)代表去B區巡邏。如果抽到1、2號簽,就去A區巡邏;如果抽到3號簽,就去B區巡邏。這樣警察就有2/3的概率去A區巡邏,1/3的概率去B區巡邏,其概率的大小與巡邏地的財產價值成正比。
而小偷的最優選擇也是同樣以抽籤的辦法決定去A區行竊還是去B區偷盜,只是與警察相反:小偷抽到1、2號簽去B區行竊,抽到3號簽去A區行竊。那麼,小偷就有1/3的概率去A區偷盜,2/3的概率去B區偷盜。
上面所說的警察與小偷所採取的策略便是混合策略。
按上述混合策略,警察的總期望收益是7/3萬元,與只巡邏A區得2萬元的收益的策略相比,明顯得到了提高。
原因如下:
當警察去A區巡邏時,小偷有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏A區的期望收益為7/3(1/3×3+2/3×2=7/3)萬元;當警察去B區巡邏時,小偷同樣有1/3的概率去A區偷盜,2/3的概率去B區偷盜,此時,警察巡邏B區的期望收益為7/3(1/3×1+2/3×3=7/3)萬元。警察的總期望收益為7/3(2/3×7/3+1/3×7/3=7/3)萬元。
同理,我們也可知小偷採取混合策略的總期望收益是2/3萬元,比得1萬元收益的只偷盜B區的策略(前提是警察只巡邏A區)要差。
當博弈一方所得為另一方所失時,對於博弈的任何一方而言,此時只有混合策略均衡點,而不可能有純策略的納什均衡點。