首頁> 其他類型> 心理學與博弈論> 混合策略均衡點：警察與小偷的博弈

混合策略均衡點：警察與小偷的博弈

2024-10-11 16:43:40 作者：徐文

是不是所有博弈均存在一個純策略（純策略是指參與者在其策略空間中選取的唯一確定的策略）的納什均衡點呢？答案是否定的。除了上面敘說多次的、大家比較熟悉的純策略均衡點外，有的博弈並沒有一個確定的唯一的策略，而是存在一個混合策略（混合策略是指參與者採取的不是確定的唯一的策略，而是在其策略空間中以概率來選擇不同策略）均衡點。下面我們將以警察與小偷的博弈為例對混合策略均衡點進行說明。

某小鎮只有一名巡邏警察，他一個人要負責整個鎮的治安。假定該小鎮主要分為A、B兩區，A區有一家建設銀行，B區有一家金銀首飾店。再假定這個小鎮有一個小偷，要對該鎮實施偷盜行為。因為沒有分身術，警察一次只能在一個區巡邏；而對於小偷來說，一次也只能去一個地方行竊。

假定A區建設銀行需要保護的財產為2萬元，B區首飾店的財產價值1萬元。若警察在A區巡邏，而小偷也恰巧選擇去了該地，小偷就會被警察當場抓住，該區建設銀行的2萬元財產就不會損失；若警察在A區巡邏，而小偷卻選擇去了B區，因沒有警察的保護，小偷偷盜成功，B區首飾店的1萬元財產將分文不剩，全落進小偷的腰包。

在這種情況下，警察要怎麼巡邏才能使效果最好呢？

如果按照先前的思路——只能選取一個確定的唯一的策略，那很明顯的做法是：警察在A區巡邏，可以保護該區建設銀行的2萬元財產不被偷竊。而小偷去B區，偷竊一定成功，B區首飾店的1萬元財產盡歸小偷所有。也就是說警察的收益是2萬元，而小偷的收益是1萬元。

但是這種做法是警察的最佳策略嗎？存不存在一種更好的策略或者說能不能對這種策略進行改進呢？

若警察在A區或B區巡邏，而小偷也正好選擇去A區或B區，則小偷無法實施偷盜，此時警察的收益為3（保住A區建設銀行和B區首飾店共3萬元財產），小偷的收益為0（沒有收益），記作（3，0）。

若警察在A區巡邏，而小偷去B區偷盜，此時，警察的收益為2（保住A區建設銀行2萬元財產），小偷的收益為1（成功偷盜B區首飾店1萬元財產），記作（2，1）。

若警察在B區巡邏，而小偷去A區偷盜，此時，警察的收益為1（保住B區首飾店1萬元財產），小偷的收益為2（成功偷盜A區建設銀行2萬元財產），記作（1，2）。

請記住𝙗𝙖𝙣𝙭𝙞𝙖𝙗𝙖.𝙘𝙤𝙢網站，觀看最快的章節更新

警察與小偷的收益可寫成如下的收益矩陣：

由上面分析，我們可以得出這個博弈沒有純策略納什均衡點，而有混合策略均衡點。在混合策略均衡點下，雙方的策略選擇是其最優策略選擇。

此時，警察的一個最佳選擇是：用抽籤的方法決定去A區巡邏還是去B區巡邏。因為A區建設銀行的財產價值是B區首飾店的兩倍，所以用兩個簽（比如1、2）代表去A區巡邏，一個簽（比如3）代表去B區巡邏。如果抽到1、2號簽，就去A區巡邏；如果抽到3號簽，就去B區巡邏。這樣警察就有2/3的概率去A區巡邏，1/3的概率去B區巡邏，其概率的大小與巡邏地的財產價值成正比。

而小偷的最優選擇也是同樣以抽籤的辦法決定去A區行竊還是去B區偷盜，只是與警察相反：小偷抽到1、2號簽去B區行竊，抽到3號簽去A區行竊。那麼，小偷就有1/3的概率去A區偷盜，2/3的概率去B區偷盜。

上面所說的警察與小偷所採取的策略便是混合策略。

按上述混合策略，警察的總期望收益是7/3萬元，與得2萬元收益的只巡邏A區的策略相比，明顯得到了提高。

原因如下：

當警察去A區巡邏時，小偷有1/3的概率去A區偷盜，2/3的概率去B區偷盜，此時，警察巡邏A區的期望收益為7/3（1/3×3+2/3×2=7/3）萬元；當警察去B區巡邏時，小偷同樣有1/3的概率去A區偷盜，2/3的概率去B區偷盜，此時，警察巡邏B區的期望收益為7/3（1/3×1+2/3×3=7/3）萬元。警察的總期望收益為7/3（2/3×7/3+1/3×7/3=7/3）萬元。

同理，我們也可知小偷採取混合策略的總期望收益是2/3萬元，比得1萬元收益的只偷盜B區的策略（前提是警察只巡邏A區）要差。

當博弈一方所得為另一方所失時，對於博弈的任何一方而言，此時只有混合策略均衡點，而不可能有純策略的納什均衡點。