第二章 完全信息静态博弈
基本分析思路和方法 纳什均衡
无限策略博弈分析和反应函数 混合策略和混合策略纳什均衡 纳什均衡的存在性
纳什均衡的选择和分析方法扩展
第一节 基本分析思路和方法
一、上策均衡
上策(Dominant strategy):不管其它博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其它的策略,至少不低于其他策略的策略。
囚徒的困境中的“坦白”;双寡头削价中“低价”。
上策均衡:一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策,必然是该博弈比较稳定的结果
上策均衡不是普遍存在的。
二、严格下策反复消去法
严格下策(Strictly dominated strategy):不管其它博弈方的策略如何变化,给一个博弈方带来的收益总是比另一种策略给他带来的收益小的策略
应用:
对于博弈方2来讲:无论博弈方1出什么策略,中策总比右策好,即右策为严格下策,消去。
剩余博弈矩阵中:对于博弈方1来讲,无论博弈方2出什么策略,上策总比下策好,即下策为严格下策,消去。
三、划线法
思路:分别找出,每一博弈方针对对方每种策略的最佳对策,在此策略下划线。 收益矩阵中,每个数字下均划线的,就是纳什均衡。 例如:
先分析博弈方1:对方采用左,则我上,在上1下划线;对方采用中,则我上,在上1下划线;对方采用右,则我下,在下2下划线。
再分析博弈方2:对方采用上,则我中,在中3下划线;对方采用下,则我下,在下4下划线。
如上图所示,均衡策略组合为(上,中)。
其他如:囚徒困境、夫妻之争、猜硬币。等,均采用此法,如下所示:
囚徒困境
夫妻之争
猜硬币博弈
四、箭头法
基本思路:对博弈中的每个策略组合进行分析,考察在每个策略组合处各个博弈方能否通过单独改变自己的策略而增加收益。
如能,则从所分析的策略组合对应的收益数组引一箭头,到改变策略后策略组合对应的得益数组。
只有指向的箭头而没有指离的箭头的策略组合就是稳定的策略组合,就是该博弈的结果。
例如:
博弈方2
左
中
右
博上 弈方下
一、纳什均衡的定义
1
第二节 纳什均衡
纳什(John Forbes Nash)出生在美国西弗吉尼亚州一个中产家庭。父亲是电子工程师与教师,第一次世界大战的老兵。纳什小时孤独内向,虽然父母对他照顾有加,但老师认为他不合群不善社交。 纳什的数学天分大约在14岁开始展现。他在普林斯顿大学读博士时刚刚二十出头,但他的一篇关于非合作博弈的博士论文和其他相关文章,确立了他博弈论大师的地位。1950年获得美国普林斯顿高等研究院数学博士学位,1951年至1959年在麻省理工学院(MIT)数学中心任职。现任普林斯顿大学数学系教授,美国科学院院士。1994年诺贝尔经济学奖得主。国际公认的博弈论创始人之一。
1950年,年仅22岁的数学博士约翰·纳什连续发表了两篇划时代的论文《N人对策的均衡点》、《讨价还价问题》。次年,他又发表了《非合作对策》。这非合作对策理论以及合作对策的讨价还价理论奠定了坚实的基础,同时为对策论在50年代形成一门成熟的学科做出创始性的贡献。
策略空间:S1,Sn
博弈方i的第j个策略:sijSi 博弈方i的得益:ui
博弈:G{S1,Sn;u1,un}
定义:在博弈G{S1,Sn;u1,un}中,如果由各个博弈方的各一个策略组成的某个策略组合(si,sn)中,任一博弈方i的策略si,都是对其余博弈方策略的组合
*
*
*
*
************(si*,si*也即ui(si,si1,si,si1,...sn)ui(si,si1,sij,si1,...sn) 1,si1,...sn)的最佳对策,
对任意sijSi都成立,则称(si,sn)为G的一个纳什均衡。
二、纳什均衡的一致预测性质
一致预测性:如果所有博弈方都预测一个特定的博弈结果会出现,那么所有的博弈方都不会利用该预测或者这种预测能力选择与预测结果不一致的策略,既没有哪个博弈方有偏离这个预测结果的愿望,因此这个预测结果会成为博弈的最终结果。
只有纳什均衡才具有一致预测的性质。 一致预测性是纳什均衡的本质属性。
纳什均衡分析不能对所有的博弈结果作出准确的预测。有许多博弈根本无法准确预测,因为他们不存在纳什均衡,而另一些博弈又有多重纳什均衡且相互无显著的优劣或效率差别。
三、纳什均衡与严格下策反复消去法
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策均衡。
命题2.1:在n个博弈方的博弈G{S1,Sn;u1,un}中,如果严格下策反复消去法排除了除(si,sn)之外的所有策略组合,那么(si,sn)一定是该博弈的唯一的纳什均衡。
命题2.2:在n个博弈方的博弈G{S1,Sn;u1,un}中,如果(si,sn)是G的一个纳什均衡,那么严格下策反复消去法一定不会将它消去。
*
*
*
*
*
*
第三节 无限策略分析和反应函数
一、古诺的寡头模型
两个厂商,各自产量q1、q2,总产量Qq1q2。 市场价格:PP(Q)8Q 成本:c1c22 各自的利润:
厂商1:u1q1P(Q)c1q1q1[8(q1q2)]2q16q1q1q2q1 厂商2:u2q2P(Q)c2q2q2[8(q1q2)]2q26q2q1q2q2 假设策略组合q1,q2是纳什均衡,那么它必须是最大值问题
max6q1q1q2q12q1
2
max6q2q1q2q2q2
22
的解。
解之得:q1q22。
此时:市场总产量为4;市场价格为4;各自的利润为4,总利润为8。
分析:若两个厂商联合起来,他们可以获得最大利润。此时,总产量为3,最大总收益为9。两者平分,各自可得收益为4.5,两者平均产量为1.5个单位。
然而,这个产量组合(1.5,1.5)不是一个纳什均衡产量,二者均有突破此产量以求获得更大收益的冲动(达到2.25个产量,此时利润为
81
,对方利润为3.375)。结果导致16
囚徒困境的产生。
二、反应函数(Reaction Function)
划线法的扩展:有限策略推广到无限策略。
找出每个博弈方针对其他博弈方所有策略(或策略组合)的最佳对策,然后再找出相互构成最佳对策的各博弈方策略组成的策略组合,也就是博弈的纳什均衡。
例如,对于古诺博弈:
1
maxu1max(6q1q1q2q12)q1R1(q2)(6q2)q12
12
maxu2max6q2q1q2q2q2R2(q1)2(6q1)q2
由此将两个反应函数放在一起,其交点就是纳什均衡点。
三、伯特兰德(Joseph Bertrand)寡头模型
价格竞争寡头的博弈模型。(选择价格而不是产量) 产品有一定差别,可以相互替代,但又不可完全替代。 各自的需求函数:
厂商1:q1q1(P1,P2)a1b1P1d1P2 厂商2:q2q2(P1,P2)a2b2P2d2P1
假设各自的成本为:c1、c2。则各自的利润函数为:
厂商1:u1u1(P1,P2)Pq11c1q1(P1c1)q1(P1c1)(a1b1P1d1P2) 厂商2:u2u2(P1,P2)P2q2c2q2(P2c2)q2(P2c2)(a2b2P2d2P1) 则两厂商的反应函数为:
P1R1P2
11
(a1b1c1d1P2)和P2*R2P2(a2b2c2d2P1) 2b12b2
纳什均衡P1,P1必是两反应函数的交点,即必须满足
1**
P(abcdP12b11112)1
P*1(abcdP*)2222212b2
解此方程组即可。
四、公共资源问题
公共资源:(1)没有哪个个人、企业或组织拥有所有权;(2)大家都可以自由利用。 例子:公共牧地
放羊总数:Qq1qn
每只羊的产出函数:VV(Q)Vq1qn
Vq1qnqic 农户i的收益:uiqVi(Q)qicqi
假设有3个农户,产出函数为V100Q100q1qn,成本为c4。则收益函数为:
农户1:u1q1100q1q2q34q1 农户2:u2q2100q1q2q34q2 农户3:u3q3100q1q2q34q3 农户各自利益最大化,得各自的反应函数:
11q1R1(q2,q3)48q2q3
2211
q2R2(q1,q3)48q1q3
2211
q3R3(q1,q2)48q1q2
22
***
解之可得:q1q2q324,u1u2u3576。
***
比较分析:
若农户追求总体利益最大化,则有
uQ(100Q)4Q96Q2
由此可得:Q4832472,u230435761728
第四节 混合策略和混合策略纳什均衡
一、严格竞争博弈和混合策略的引进
1、猜硬币博弈
基本原则:(1)确保自身策略选择的随机性;(2)重视选择各个策略的概率分布。 假设不保持策略选择的随机性,则对方可针对其策略选择规律获益;
假设策略选择的概率分布不恰当,也将导致对方获益。例如:
对于盖硬币方,若出正面的概率为p,则其出反面的概率就为1p。此时,对于猜硬币方来讲,如果全猜正面,则其期望收益为:
猜硬币方 正面
反面 1,-1 -1,1
盖
硬正面 币方
反面
-1,1 1,-1
u1p11p2p1
假如盖硬币概率选择为p
1
,那么猜硬币方总是选择正面就可以获益(赢);相反,2
如果盖硬币概率选择为p
1
,那么猜硬币方总是选择反面就可以获益(赢)。 2
因此,将随机概率确定为0.5,对于盖硬币方是非常关键的,即出正面和反面的随机概率相等,对方就难以从中获益(赢)。反之,对于猜硬币方也是如此。 2、混合策略、混合策略博弈和混合策略纳什均衡
混合策略:在博弈G{S1,Sn;u1,un}中,博弈方i的策略空间为Si{si1,sik},则博弈方i以概率分布pi(pi1,pik)随机在其k个可选策略中选择的“策略”,称为一个“混合策略”,其中0pij1对j1,,k都成立,且pi1pik1。
混合策略纳什均衡:任何博弈方单独改变自己的策略,或者随机选择各个策略的概率分布,都不能给自己增加任何利益。 3、一个数值例子
此博弈不存在纯策略纳什均衡。这是一个混合策略问题。
原则:(1)确保策略选择的随机性;
(2)选择适当的随机概率,即让对方无法通过针对性的倾向某一策略而在博弈中占上风。也就是说,
博弈方2
博
弈A 方1 B
确定自己选择策略的随机概率,使对方无论采取哪种策略的期望收益相等,即对方不存在优势策略。
对于博弈方1:确定两个策略的随机概率,假设为pA、pB,那么对方(博弈方2)选择两种策略的期望收益分别为:
C策略:uCpA3pB1; D策略:uDpA2pB5
要让对方两策略无差异,则有pA3pB1pA2pB5,即pA4pB。又因为
pApB1,所以pA0.8,pB0.2。
此即为博弈方1应该选择的混合策略。
同理可得博弈方2的混合策略:pC0.8,pD0.2。 两人的多次重复独立博弈的平均收益,或其期望收益分别为:
u1epApC2pApD5pBpC3pBpD10.80.820.80.250.20.830.20.21 2.6
同理:u22.6 4、田忌赛马
若齐威王的策略分布为:pa、pb、pc、pd、pe、pf。则田忌的每个策略预期收益为:
e
上
中下
g
上下中
田 忌
中中
下上
上下
下
上中下中上
上中下 a齐上下中 b威中上下 c王中下上 d下上中 e下中上 fg策略:pa3pb1pc1pd1pe1pf1 h策略:pa1pb3pc1pd1pe1pf1
i策略:
„„
令各策略的预期收益相等,可得papbpcpdpepf,又其总和为1,所以
papbpcpdpepf
1。 6
1 6
同理,田忌的混合策略为pgphpipjpkpl
由此,齐威王和田忌都以混合策略纳什均衡。
预期收益:
1
的相同概率随机选择各自的六个纯策略,构成本博弈唯一的6
(1)齐威王:策略a发生的概率为
11
,对应的预期收益为3111111;66
111111
1。 666666
由于对称性,其他策略也是如此,所以总预期收益为
(2)田忌:策略g发生的概率为
11
,对应的预期收益为3111111;66
111111
11。
666666
由于对称性,其他策略也是如此,所以总预期收益为
5、小偷和守卫的博弈(激励悖论)
泽尔腾(Selten,1930——)德国人。1994年诺奖得主。
守 卫
不睡 睡
小偷
偷
不偷
设小偷偷的概率为pt,则不偷的概率为1pt;守卫睡的概率为pg,不睡的概率为
1p。
g
代数解析分析方法:
对守卫来讲,其最优策略确保自己睡觉的随机概率分布使小偷无论选择偷还是不偷的期望收益相同,即有:
VpgP1pg=0pg01pg,得:pP
gVP
小偷偷的期望收益
小偷不偷的期望收益
对小偷来讲,其最优策略是确保自己偷的随机概率分布使守卫无论选择睡觉还是不睡觉的期望收益相同,即有:
DptS1pt0pt01pt,得:pS
tDS
守卫睡的期望收益
守卫不睡的期望收益
图形分析: (1)小偷:
图中,纵轴为守卫的得意(睡),取决于小偷偷的概率有多大。 守卫睡觉的期望收益为:ugDptS1ptSDSpt
小偷的最优策略应是使守卫睡的收益为0。
如果睡的收益大于零,守卫采取睡的策略,那么小偷将增加偷的概率。 如果睡的收益小于零,那么守卫将采取不睡的策略,则小偷将降低偷的概率。 结论:加重对守卫的处罚(D增加),将降低小偷偷盗发生的概率。 (2)守卫:
守卫得Spt
小偷得pg
P
图中,纵轴为小偷的得益(偷),取决于守卫睡的概率有多大。 小偷的期望收益为:utVpgP1pgVPpgP
守卫的最优策略应是使小偷偷的收益为0。
如果偷的收益大于零,小偷采取恒偷的策略,那么守卫将增不睡的概率。 如果偷的收益小于零,那么小偷将采取不偷的策略,则守卫将增加睡的概率。 结论:加重对小偷的处罚(P增加),将增加守卫睡觉的概率。
二、多重均衡博弈和混合策略
1、夫妻之争
妻子:
设妻子选择时装的概率为pwC,选择足球的概率为pwF。妻子的策略是确保不让丈夫利用自己的选择倾向占上风,即自己的概率选择应使丈夫选择两种策略的期望收益相同:
时装
时装 足球
丈夫
足球 妻
子
pwC1pwF0pwC0pwF3
丈夫选择时装的预期收益
丈夫选择足球的预期收益
得:pwC=0.75,pwF=0.25。 丈夫:
设丈夫选择时装的概率为phC,选择足球的概率为phF。丈夫的策略是确保不让妻子利用自己的选择倾向占上风,即自己的概率选择应使妻子选择两种策略的期望收益相同:
phC2phF0phC0phF1
妻子选择时装的预期收益
妻子选择足球的预期收益
得:phC=
12,phF=。 33
两人博弈的期望收益: 妻子:
pwCphC2pwCphF0
pwFphC0pwFphF1120.7520.251
332
0.673
丈夫:
pwCphC1pwCphF0
pwFphC0pwFphF312
0.7510.253
33
0.75
双方的收益较低,远不如相互协商的收益好。 夫妻之争(2):极端偏好的弊端
妻子:
设妻子选择时装的概率为pwC,选择足球的概率为pwF。妻子的策略是确保不让丈夫利用自己的选择倾向占上风,即自己的概率选择应使丈夫选择两种策略的期望收益相同:
时装
时装 足球
丈夫
足球
妻
子
pwC1pwF0pwC0pwF3
丈夫选择时装的预期收益
丈夫选择足球的预期收益
得:pwC=0.75,pwF=0.25。
丈夫:
设丈夫选择时装的概率为phC,选择足球的概率为phF。丈夫的策略是确保不让妻子利用自己的选择倾向占上风,即自己的概率选择应使妻子选择两种策略的期望收益相同:
phC2phF0phC0phF2
妻子选择时装的预期收益
妻子选择足球的预期收益
得:phC=0.5,phF=0.5。 两人博弈的期望收益: 妻子:
pwCphC2pwCphF0
pwFphC0pwFphF20.750.520.250.521
丈夫:
pwCphC1pwCphF0
pwFphC0pwFphF30.750.510.250.530.75
此博弈中,二人看足球和时装的收益之和均为4.只不过,妻子在足球与时装之间无显著差异;而丈夫更喜欢足球。博弈的结果,导致妻子的期望收益高于丈夫的期望收益。说明,具有极端偏好倾向的人往往收益较低。 2、制式博弈及市场机会博弈
此两个博弈与夫妻博弈类似,均是混合策略博弈。
三、混合策略和严格下策反复消去法(略) 四、混合策略反应函数(略)
第五节 纳什均衡的存在性
一、纳什定理
在一个由n个博弈方的博弈G{S1,Sn;u1,un}中,如果n是有限的,且Si都是有限集(对i1,n),则该博弈至少存在一个纳什均衡,但可能包含混合策略。
二、意义
纳什均衡在相当广泛的博弈类型中是普遍存在的,至少可以保证存在一个混合策略纳什均衡。在有些类型的博弈中更可以证明至少存在一个纯策略纳什均衡。
第六节 纳什均衡的选择和分析方法扩展
纳什均衡的存在性不等于唯一性,在许多博弈中那是均衡是不唯一的,而且不同的纳什均衡相互之间也没有明显的优劣关系。
在存在多重纳什均衡的情况下,到底哪一个均衡会被选择(或最有可能实现),通常受到其他因素的影响。
一、帕累托和风险上策均衡
1、帕累托上策均衡
维弗雷多·帕累托(Vilfredo Pareto,1848——1923),意大利经济学家、社会学家,洛桑学派的主要代表之一。运用立体几何研究经济变量间的相互关系,发展了瓦尔拉的一般均衡的代数体系;提出在收入分配为既定的条件下,为了达到最大的社会福利,生产资料的配置所必须达到的状态,这种状态称为“帕累托最优(Pareto Optimality)”。
帕累托最优是指资源分配的一种状态,在不使任何人境况变坏的情况下,而不可能再使某些人的处境变好。或者更广义的说是一种“不损害一些人就不能进一步改善任何人”的状态,即不存在帕累托改进。
在有些博弈中,虽存在多个纳什均衡,但很可能这些纳什均衡有明显的优劣差异,所以博弈方都偏好其中同一个纳什均衡。此时,这个明显“优”的博弈就很可能是博弈方的共同选择,这个均衡就是帕累托上策均衡。例如:
国 家2 战 争 -5,-5 -10,8
和 平 8,-10 10,10
国战争 鹰鸽博弈(战争与和平):
家
两个纳什均衡:(战争,战争)、(和平,和平) 1 和平
(和平,和平)为帕累托上策均衡。 2、风险上策均衡
帕累托上策均衡为(U,L) 风险上策均衡为(D,R)
博弈方2 L
R 0,8 7,7
博
弈U 方1 D
9,9 8,0
卢梭:《论人类不平等的起源和基础》 “如果大家在捕一只鹿,每人都很知道应该忠实地守着自己的岗位。但是如果有一只兔子从其中一人的眼前跑过,这个人一定会毫不迟疑地去追这只兔子;当他捕到了兔子以后,他的同伴
因此而没有捕到他们的猎物(鹿)这件事,他会不大在意,这是无须怀疑的。”
演绎1:
假设部落中的所有人都共同前去猎鹿,他们站成一个圈,将牡鹿栖息的灌木丛团团围住,然后慢慢向里逼近,牡鹿惊醒后便开始向外逃窜,此时如果大家同心协力,牡鹿就会被离它最近的猎手杀死。但是,假设在这一过程中有一个猎手看见一只野兔,而且肯定能将其捕获,那么由于他离开岗位,牡鹿便从包围圈的这个缺口中逃走了。这对捉到野兔的猎手来说无所谓,因为他这下有肉吃了,但其他人却白白赔了一副空肚肠。有利于个人私利的决定便有损于集体,看来社会成员之间的协作不过是一纸空文。
演绎2:
古代的一个村庄有两个猎人。当地主要的猎物只有两种:鹿和兔子。在古代,人类的狩猎手段比较落后,弓箭的威力也有限。而鹿比较大,眼力好、奔跑迅速、生命力强还有一对有力的角,两个猎人一起去才能猎获一只鹿。如果一个猎人单兵作战,一天只能最多打到3只兔子。
从填饱肚子的角度来说,3只兔子能保证一个人3天不挨饿,而1只鹿却差不多能使两个人吃上5天。这样,两个人的行为决策就可以写成以下的博弈形式:要么分别打兔子,每人得3;要么合作,每人得5。这样猎鹿博弈有两个纳什均衡点,那就是:要么分别打兔子,每人吃饱3天;要么合作,每人吃饱5天。
显然,合作猎鹿是帕累托上策均衡。但,这个均衡可能并不不会实现。
如果一只野兔碰巧经过他们中的一个人附近,那么也许这个人会去猎兔而使猎鹿失败。因为两个人都猎兔也是一个纳什均衡,这就是人的自私性。
猎 人2 鹿
兔 子 0,3 3,3
猎
人1
鹿 兔子
5,5 3,0
二、聚点均衡和相关均衡
均衡策略的选择,常常受到心理、习惯、文化、环境等因素的影响。 1、聚点均衡
在多重纳什均衡的博弈中,双方同时选择一个聚点构成的纳什均衡称为“聚点均衡”(Focal Points Equilibrium)。聚点均衡首先是纳什均衡,是多重纳什均衡中比较容易被选择的纳什均衡。
例如:报时博弈、城市博弈 2、相关均衡
在多重纳什均衡的博弈中,博弈双方引入一个信号装置,并约定依据此装置发出的信号选择最终的纳什均衡,同时能够剔除非纳什均衡的结果。并且,存在忽视信号的博弈方的情况下,并不影响各博弈方原来可能实现的利益。那么,根据此种装置选择策略构成的纳什均衡为相关均衡。
例如:夫妻博弈中,引入天气好坏、抛硬币等信号装置。
三、共谋和防共谋均衡
(略)
题目:
智猪博弈(Boxed pigs)
猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物(假设10个)。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。
当小猪踩动踏板时,大猪会在小猪跑到食槽之前吃掉大部分食物(大猪9,小猪1);若是大猪踩动了踏板,则能在小猪吃完前跑到食槽,并能争吃到一部分食物(大猪6,小猪4)。如果同时踩,则两猪同时到达食槽,大猪吃掉7个,小猪吃掉3个。并假设,踩踏板需要付出一定的成本,假设为2。
其博弈矩阵为:
小猪
踩
等待 4,4 0,0
大踩 猪
等待
5,1 9,-1
求博弈的均衡策略组合。
第二章 完全信息静态博弈
基本分析思路和方法 纳什均衡
无限策略博弈分析和反应函数 混合策略和混合策略纳什均衡 纳什均衡的存在性
纳什均衡的选择和分析方法扩展
第一节 基本分析思路和方法
一、上策均衡
上策(Dominant strategy):不管其它博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其它的策略,至少不低于其他策略的策略。
囚徒的困境中的“坦白”;双寡头削价中“低价”。
上策均衡:一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策,必然是该博弈比较稳定的结果
上策均衡不是普遍存在的。
二、严格下策反复消去法
严格下策(Strictly dominated strategy):不管其它博弈方的策略如何变化,给一个博弈方带来的收益总是比另一种策略给他带来的收益小的策略
应用:
对于博弈方2来讲:无论博弈方1出什么策略,中策总比右策好,即右策为严格下策,消去。
剩余博弈矩阵中:对于博弈方1来讲,无论博弈方2出什么策略,上策总比下策好,即下策为严格下策,消去。
三、划线法
思路:分别找出,每一博弈方针对对方每种策略的最佳对策,在此策略下划线。 收益矩阵中,每个数字下均划线的,就是纳什均衡。 例如:
先分析博弈方1:对方采用左,则我上,在上1下划线;对方采用中,则我上,在上1下划线;对方采用右,则我下,在下2下划线。
再分析博弈方2:对方采用上,则我中,在中3下划线;对方采用下,则我下,在下4下划线。
如上图所示,均衡策略组合为(上,中)。
其他如:囚徒困境、夫妻之争、猜硬币。等,均采用此法,如下所示:
囚徒困境
夫妻之争
猜硬币博弈
四、箭头法
基本思路:对博弈中的每个策略组合进行分析,考察在每个策略组合处各个博弈方能否通过单独改变自己的策略而增加收益。
如能,则从所分析的策略组合对应的收益数组引一箭头,到改变策略后策略组合对应的得益数组。
只有指向的箭头而没有指离的箭头的策略组合就是稳定的策略组合,就是该博弈的结果。
例如:
博弈方2
左
中
右
博上 弈方下
一、纳什均衡的定义
1
第二节 纳什均衡
纳什(John Forbes Nash)出生在美国西弗吉尼亚州一个中产家庭。父亲是电子工程师与教师,第一次世界大战的老兵。纳什小时孤独内向,虽然父母对他照顾有加,但老师认为他不合群不善社交。 纳什的数学天分大约在14岁开始展现。他在普林斯顿大学读博士时刚刚二十出头,但他的一篇关于非合作博弈的博士论文和其他相关文章,确立了他博弈论大师的地位。1950年获得美国普林斯顿高等研究院数学博士学位,1951年至1959年在麻省理工学院(MIT)数学中心任职。现任普林斯顿大学数学系教授,美国科学院院士。1994年诺贝尔经济学奖得主。国际公认的博弈论创始人之一。
1950年,年仅22岁的数学博士约翰·纳什连续发表了两篇划时代的论文《N人对策的均衡点》、《讨价还价问题》。次年,他又发表了《非合作对策》。这非合作对策理论以及合作对策的讨价还价理论奠定了坚实的基础,同时为对策论在50年代形成一门成熟的学科做出创始性的贡献。
策略空间:S1,Sn
博弈方i的第j个策略:sijSi 博弈方i的得益:ui
博弈:G{S1,Sn;u1,un}
定义:在博弈G{S1,Sn;u1,un}中,如果由各个博弈方的各一个策略组成的某个策略组合(si,sn)中,任一博弈方i的策略si,都是对其余博弈方策略的组合
*
*
*
*
************(si*,si*也即ui(si,si1,si,si1,...sn)ui(si,si1,sij,si1,...sn) 1,si1,...sn)的最佳对策,
对任意sijSi都成立,则称(si,sn)为G的一个纳什均衡。
二、纳什均衡的一致预测性质
一致预测性:如果所有博弈方都预测一个特定的博弈结果会出现,那么所有的博弈方都不会利用该预测或者这种预测能力选择与预测结果不一致的策略,既没有哪个博弈方有偏离这个预测结果的愿望,因此这个预测结果会成为博弈的最终结果。
只有纳什均衡才具有一致预测的性质。 一致预测性是纳什均衡的本质属性。
纳什均衡分析不能对所有的博弈结果作出准确的预测。有许多博弈根本无法准确预测,因为他们不存在纳什均衡,而另一些博弈又有多重纳什均衡且相互无显著的优劣或效率差别。
三、纳什均衡与严格下策反复消去法
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策均衡。
命题2.1:在n个博弈方的博弈G{S1,Sn;u1,un}中,如果严格下策反复消去法排除了除(si,sn)之外的所有策略组合,那么(si,sn)一定是该博弈的唯一的纳什均衡。
命题2.2:在n个博弈方的博弈G{S1,Sn;u1,un}中,如果(si,sn)是G的一个纳什均衡,那么严格下策反复消去法一定不会将它消去。
*
*
*
*
*
*
第三节 无限策略分析和反应函数
一、古诺的寡头模型
两个厂商,各自产量q1、q2,总产量Qq1q2。 市场价格:PP(Q)8Q 成本:c1c22 各自的利润:
厂商1:u1q1P(Q)c1q1q1[8(q1q2)]2q16q1q1q2q1 厂商2:u2q2P(Q)c2q2q2[8(q1q2)]2q26q2q1q2q2 假设策略组合q1,q2是纳什均衡,那么它必须是最大值问题
max6q1q1q2q12q1
2
max6q2q1q2q2q2
22
的解。
解之得:q1q22。
此时:市场总产量为4;市场价格为4;各自的利润为4,总利润为8。
分析:若两个厂商联合起来,他们可以获得最大利润。此时,总产量为3,最大总收益为9。两者平分,各自可得收益为4.5,两者平均产量为1.5个单位。
然而,这个产量组合(1.5,1.5)不是一个纳什均衡产量,二者均有突破此产量以求获得更大收益的冲动(达到2.25个产量,此时利润为
81
,对方利润为3.375)。结果导致16
囚徒困境的产生。
二、反应函数(Reaction Function)
划线法的扩展:有限策略推广到无限策略。
找出每个博弈方针对其他博弈方所有策略(或策略组合)的最佳对策,然后再找出相互构成最佳对策的各博弈方策略组成的策略组合,也就是博弈的纳什均衡。
例如,对于古诺博弈:
1
maxu1max(6q1q1q2q12)q1R1(q2)(6q2)q12
12
maxu2max6q2q1q2q2q2R2(q1)2(6q1)q2
由此将两个反应函数放在一起,其交点就是纳什均衡点。
三、伯特兰德(Joseph Bertrand)寡头模型
价格竞争寡头的博弈模型。(选择价格而不是产量) 产品有一定差别,可以相互替代,但又不可完全替代。 各自的需求函数:
厂商1:q1q1(P1,P2)a1b1P1d1P2 厂商2:q2q2(P1,P2)a2b2P2d2P1
假设各自的成本为:c1、c2。则各自的利润函数为:
厂商1:u1u1(P1,P2)Pq11c1q1(P1c1)q1(P1c1)(a1b1P1d1P2) 厂商2:u2u2(P1,P2)P2q2c2q2(P2c2)q2(P2c2)(a2b2P2d2P1) 则两厂商的反应函数为:
P1R1P2
11
(a1b1c1d1P2)和P2*R2P2(a2b2c2d2P1) 2b12b2
纳什均衡P1,P1必是两反应函数的交点,即必须满足
1**
P(abcdP12b11112)1
P*1(abcdP*)2222212b2
解此方程组即可。
四、公共资源问题
公共资源:(1)没有哪个个人、企业或组织拥有所有权;(2)大家都可以自由利用。 例子:公共牧地
放羊总数:Qq1qn
每只羊的产出函数:VV(Q)Vq1qn
Vq1qnqic 农户i的收益:uiqVi(Q)qicqi
假设有3个农户,产出函数为V100Q100q1qn,成本为c4。则收益函数为:
农户1:u1q1100q1q2q34q1 农户2:u2q2100q1q2q34q2 农户3:u3q3100q1q2q34q3 农户各自利益最大化,得各自的反应函数:
11q1R1(q2,q3)48q2q3
2211
q2R2(q1,q3)48q1q3
2211
q3R3(q1,q2)48q1q2
22
***
解之可得:q1q2q324,u1u2u3576。
***
比较分析:
若农户追求总体利益最大化,则有
uQ(100Q)4Q96Q2
由此可得:Q4832472,u230435761728
第四节 混合策略和混合策略纳什均衡
一、严格竞争博弈和混合策略的引进
1、猜硬币博弈
基本原则:(1)确保自身策略选择的随机性;(2)重视选择各个策略的概率分布。 假设不保持策略选择的随机性,则对方可针对其策略选择规律获益;
假设策略选择的概率分布不恰当,也将导致对方获益。例如:
对于盖硬币方,若出正面的概率为p,则其出反面的概率就为1p。此时,对于猜硬币方来讲,如果全猜正面,则其期望收益为:
猜硬币方 正面
反面 1,-1 -1,1
盖
硬正面 币方
反面
-1,1 1,-1
u1p11p2p1
假如盖硬币概率选择为p
1
,那么猜硬币方总是选择正面就可以获益(赢);相反,2
如果盖硬币概率选择为p
1
,那么猜硬币方总是选择反面就可以获益(赢)。 2
因此,将随机概率确定为0.5,对于盖硬币方是非常关键的,即出正面和反面的随机概率相等,对方就难以从中获益(赢)。反之,对于猜硬币方也是如此。 2、混合策略、混合策略博弈和混合策略纳什均衡
混合策略:在博弈G{S1,Sn;u1,un}中,博弈方i的策略空间为Si{si1,sik},则博弈方i以概率分布pi(pi1,pik)随机在其k个可选策略中选择的“策略”,称为一个“混合策略”,其中0pij1对j1,,k都成立,且pi1pik1。
混合策略纳什均衡:任何博弈方单独改变自己的策略,或者随机选择各个策略的概率分布,都不能给自己增加任何利益。 3、一个数值例子
此博弈不存在纯策略纳什均衡。这是一个混合策略问题。
原则:(1)确保策略选择的随机性;
(2)选择适当的随机概率,即让对方无法通过针对性的倾向某一策略而在博弈中占上风。也就是说,
博弈方2
博
弈A 方1 B
确定自己选择策略的随机概率,使对方无论采取哪种策略的期望收益相等,即对方不存在优势策略。
对于博弈方1:确定两个策略的随机概率,假设为pA、pB,那么对方(博弈方2)选择两种策略的期望收益分别为:
C策略:uCpA3pB1; D策略:uDpA2pB5
要让对方两策略无差异,则有pA3pB1pA2pB5,即pA4pB。又因为
pApB1,所以pA0.8,pB0.2。
此即为博弈方1应该选择的混合策略。
同理可得博弈方2的混合策略:pC0.8,pD0.2。 两人的多次重复独立博弈的平均收益,或其期望收益分别为:
u1epApC2pApD5pBpC3pBpD10.80.820.80.250.20.830.20.21 2.6
同理:u22.6 4、田忌赛马
若齐威王的策略分布为:pa、pb、pc、pd、pe、pf。则田忌的每个策略预期收益为:
e
上
中下
g
上下中
田 忌
中中
下上
上下
下
上中下中上
上中下 a齐上下中 b威中上下 c王中下上 d下上中 e下中上 fg策略:pa3pb1pc1pd1pe1pf1 h策略:pa1pb3pc1pd1pe1pf1
i策略:
„„
令各策略的预期收益相等,可得papbpcpdpepf,又其总和为1,所以
papbpcpdpepf
1。 6
1 6
同理,田忌的混合策略为pgphpipjpkpl
由此,齐威王和田忌都以混合策略纳什均衡。
预期收益:
1
的相同概率随机选择各自的六个纯策略,构成本博弈唯一的6
(1)齐威王:策略a发生的概率为
11
,对应的预期收益为3111111;66
111111
1。 666666
由于对称性,其他策略也是如此,所以总预期收益为
(2)田忌:策略g发生的概率为
11
,对应的预期收益为3111111;66
111111
11。
666666
由于对称性,其他策略也是如此,所以总预期收益为
5、小偷和守卫的博弈(激励悖论)
泽尔腾(Selten,1930——)德国人。1994年诺奖得主。
守 卫
不睡 睡
小偷
偷
不偷
设小偷偷的概率为pt,则不偷的概率为1pt;守卫睡的概率为pg,不睡的概率为
1p。
g
代数解析分析方法:
对守卫来讲,其最优策略确保自己睡觉的随机概率分布使小偷无论选择偷还是不偷的期望收益相同,即有:
VpgP1pg=0pg01pg,得:pP
gVP
小偷偷的期望收益
小偷不偷的期望收益
对小偷来讲,其最优策略是确保自己偷的随机概率分布使守卫无论选择睡觉还是不睡觉的期望收益相同,即有:
DptS1pt0pt01pt,得:pS
tDS
守卫睡的期望收益
守卫不睡的期望收益
图形分析: (1)小偷:
图中,纵轴为守卫的得意(睡),取决于小偷偷的概率有多大。 守卫睡觉的期望收益为:ugDptS1ptSDSpt
小偷的最优策略应是使守卫睡的收益为0。
如果睡的收益大于零,守卫采取睡的策略,那么小偷将增加偷的概率。 如果睡的收益小于零,那么守卫将采取不睡的策略,则小偷将降低偷的概率。 结论:加重对守卫的处罚(D增加),将降低小偷偷盗发生的概率。 (2)守卫:
守卫得Spt
小偷得pg
P
图中,纵轴为小偷的得益(偷),取决于守卫睡的概率有多大。 小偷的期望收益为:utVpgP1pgVPpgP
守卫的最优策略应是使小偷偷的收益为0。
如果偷的收益大于零,小偷采取恒偷的策略,那么守卫将增不睡的概率。 如果偷的收益小于零,那么小偷将采取不偷的策略,则守卫将增加睡的概率。 结论:加重对小偷的处罚(P增加),将增加守卫睡觉的概率。
二、多重均衡博弈和混合策略
1、夫妻之争
妻子:
设妻子选择时装的概率为pwC,选择足球的概率为pwF。妻子的策略是确保不让丈夫利用自己的选择倾向占上风,即自己的概率选择应使丈夫选择两种策略的期望收益相同:
时装
时装 足球
丈夫
足球 妻
子
pwC1pwF0pwC0pwF3
丈夫选择时装的预期收益
丈夫选择足球的预期收益
得:pwC=0.75,pwF=0.25。 丈夫:
设丈夫选择时装的概率为phC,选择足球的概率为phF。丈夫的策略是确保不让妻子利用自己的选择倾向占上风,即自己的概率选择应使妻子选择两种策略的期望收益相同:
phC2phF0phC0phF1
妻子选择时装的预期收益
妻子选择足球的预期收益
得:phC=
12,phF=。 33
两人博弈的期望收益: 妻子:
pwCphC2pwCphF0
pwFphC0pwFphF1120.7520.251
332
0.673
丈夫:
pwCphC1pwCphF0
pwFphC0pwFphF312
0.7510.253
33
0.75
双方的收益较低,远不如相互协商的收益好。 夫妻之争(2):极端偏好的弊端
妻子:
设妻子选择时装的概率为pwC,选择足球的概率为pwF。妻子的策略是确保不让丈夫利用自己的选择倾向占上风,即自己的概率选择应使丈夫选择两种策略的期望收益相同:
时装
时装 足球
丈夫
足球
妻
子
pwC1pwF0pwC0pwF3
丈夫选择时装的预期收益
丈夫选择足球的预期收益
得:pwC=0.75,pwF=0.25。
丈夫:
设丈夫选择时装的概率为phC,选择足球的概率为phF。丈夫的策略是确保不让妻子利用自己的选择倾向占上风,即自己的概率选择应使妻子选择两种策略的期望收益相同:
phC2phF0phC0phF2
妻子选择时装的预期收益
妻子选择足球的预期收益
得:phC=0.5,phF=0.5。 两人博弈的期望收益: 妻子:
pwCphC2pwCphF0
pwFphC0pwFphF20.750.520.250.521
丈夫:
pwCphC1pwCphF0
pwFphC0pwFphF30.750.510.250.530.75
此博弈中,二人看足球和时装的收益之和均为4.只不过,妻子在足球与时装之间无显著差异;而丈夫更喜欢足球。博弈的结果,导致妻子的期望收益高于丈夫的期望收益。说明,具有极端偏好倾向的人往往收益较低。 2、制式博弈及市场机会博弈
此两个博弈与夫妻博弈类似,均是混合策略博弈。
三、混合策略和严格下策反复消去法(略) 四、混合策略反应函数(略)
第五节 纳什均衡的存在性
一、纳什定理
在一个由n个博弈方的博弈G{S1,Sn;u1,un}中,如果n是有限的,且Si都是有限集(对i1,n),则该博弈至少存在一个纳什均衡,但可能包含混合策略。
二、意义
纳什均衡在相当广泛的博弈类型中是普遍存在的,至少可以保证存在一个混合策略纳什均衡。在有些类型的博弈中更可以证明至少存在一个纯策略纳什均衡。
第六节 纳什均衡的选择和分析方法扩展
纳什均衡的存在性不等于唯一性,在许多博弈中那是均衡是不唯一的,而且不同的纳什均衡相互之间也没有明显的优劣关系。
在存在多重纳什均衡的情况下,到底哪一个均衡会被选择(或最有可能实现),通常受到其他因素的影响。
一、帕累托和风险上策均衡
1、帕累托上策均衡
维弗雷多·帕累托(Vilfredo Pareto,1848——1923),意大利经济学家、社会学家,洛桑学派的主要代表之一。运用立体几何研究经济变量间的相互关系,发展了瓦尔拉的一般均衡的代数体系;提出在收入分配为既定的条件下,为了达到最大的社会福利,生产资料的配置所必须达到的状态,这种状态称为“帕累托最优(Pareto Optimality)”。
帕累托最优是指资源分配的一种状态,在不使任何人境况变坏的情况下,而不可能再使某些人的处境变好。或者更广义的说是一种“不损害一些人就不能进一步改善任何人”的状态,即不存在帕累托改进。
在有些博弈中,虽存在多个纳什均衡,但很可能这些纳什均衡有明显的优劣差异,所以博弈方都偏好其中同一个纳什均衡。此时,这个明显“优”的博弈就很可能是博弈方的共同选择,这个均衡就是帕累托上策均衡。例如:
国 家2 战 争 -5,-5 -10,8
和 平 8,-10 10,10
国战争 鹰鸽博弈(战争与和平):
家
两个纳什均衡:(战争,战争)、(和平,和平) 1 和平
(和平,和平)为帕累托上策均衡。 2、风险上策均衡
帕累托上策均衡为(U,L) 风险上策均衡为(D,R)
博弈方2 L
R 0,8 7,7
博
弈U 方1 D
9,9 8,0
卢梭:《论人类不平等的起源和基础》 “如果大家在捕一只鹿,每人都很知道应该忠实地守着自己的岗位。但是如果有一只兔子从其中一人的眼前跑过,这个人一定会毫不迟疑地去追这只兔子;当他捕到了兔子以后,他的同伴
因此而没有捕到他们的猎物(鹿)这件事,他会不大在意,这是无须怀疑的。”
演绎1:
假设部落中的所有人都共同前去猎鹿,他们站成一个圈,将牡鹿栖息的灌木丛团团围住,然后慢慢向里逼近,牡鹿惊醒后便开始向外逃窜,此时如果大家同心协力,牡鹿就会被离它最近的猎手杀死。但是,假设在这一过程中有一个猎手看见一只野兔,而且肯定能将其捕获,那么由于他离开岗位,牡鹿便从包围圈的这个缺口中逃走了。这对捉到野兔的猎手来说无所谓,因为他这下有肉吃了,但其他人却白白赔了一副空肚肠。有利于个人私利的决定便有损于集体,看来社会成员之间的协作不过是一纸空文。
演绎2:
古代的一个村庄有两个猎人。当地主要的猎物只有两种:鹿和兔子。在古代,人类的狩猎手段比较落后,弓箭的威力也有限。而鹿比较大,眼力好、奔跑迅速、生命力强还有一对有力的角,两个猎人一起去才能猎获一只鹿。如果一个猎人单兵作战,一天只能最多打到3只兔子。
从填饱肚子的角度来说,3只兔子能保证一个人3天不挨饿,而1只鹿却差不多能使两个人吃上5天。这样,两个人的行为决策就可以写成以下的博弈形式:要么分别打兔子,每人得3;要么合作,每人得5。这样猎鹿博弈有两个纳什均衡点,那就是:要么分别打兔子,每人吃饱3天;要么合作,每人吃饱5天。
显然,合作猎鹿是帕累托上策均衡。但,这个均衡可能并不不会实现。
如果一只野兔碰巧经过他们中的一个人附近,那么也许这个人会去猎兔而使猎鹿失败。因为两个人都猎兔也是一个纳什均衡,这就是人的自私性。
猎 人2 鹿
兔 子 0,3 3,3
猎
人1
鹿 兔子
5,5 3,0
二、聚点均衡和相关均衡
均衡策略的选择,常常受到心理、习惯、文化、环境等因素的影响。 1、聚点均衡
在多重纳什均衡的博弈中,双方同时选择一个聚点构成的纳什均衡称为“聚点均衡”(Focal Points Equilibrium)。聚点均衡首先是纳什均衡,是多重纳什均衡中比较容易被选择的纳什均衡。
例如:报时博弈、城市博弈 2、相关均衡
在多重纳什均衡的博弈中,博弈双方引入一个信号装置,并约定依据此装置发出的信号选择最终的纳什均衡,同时能够剔除非纳什均衡的结果。并且,存在忽视信号的博弈方的情况下,并不影响各博弈方原来可能实现的利益。那么,根据此种装置选择策略构成的纳什均衡为相关均衡。
例如:夫妻博弈中,引入天气好坏、抛硬币等信号装置。
三、共谋和防共谋均衡
(略)
题目:
智猪博弈(Boxed pigs)
猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物(假设10个)。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。
当小猪踩动踏板时,大猪会在小猪跑到食槽之前吃掉大部分食物(大猪9,小猪1);若是大猪踩动了踏板,则能在小猪吃完前跑到食槽,并能争吃到一部分食物(大猪6,小猪4)。如果同时踩,则两猪同时到达食槽,大猪吃掉7个,小猪吃掉3个。并假设,踩踏板需要付出一定的成本,假设为2。
其博弈矩阵为:
小猪
踩
等待 4,4 0,0
大踩 猪
等待
5,1 9,-1
求博弈的均衡策略组合。