逆天仙尊2 最新:博弈论初步

来源:百度文库 编辑:中财网 时间:2024/04/27 17:38:14
主要内容:
博弈论的基本理论和运用博弈论进行决策的一般方法。
教学目的:通过本章的教学,要求学生了解博弈论的一般理论和运用博弈论进行决策的一般方法。  
 
目前,博弈论发展的非常深入,这里只是介绍一些初步知识。在二十世纪四、五十年代,由冯·诺依曼(Von Neumann)、摩根斯坦(Morgenstern)把对策论、运筹学引入经济学,形成了最早的博弈论。几十年来,博弈论在经济学中发挥着越来越大的重要作用,1994年的诺贝尔经济学奖就授予三位博弈论学家:纳什(Nash)、泽尔腾(Selten)和海萨尼(Harsanyi)。     博弈论字面的意思是游戏策略,及用类似游戏中解决问题的方法,揭示解决社会、经济及其他领域问题的策略、对策,因此有的还把博弈论译成对策论。准确的说博弈论是在给定的条件下寻求最优策略,这里给定的条件包含其他人的策略以及本人的决策对其他决策主体的影响。策略性活动在社会、经济、政治生活中大量存在,也可以说,整个社会、经济、政治生活都是博弈行为。因此,博弈论作为一种方法,广泛的应用在经济、政治、军事、外交中,只是博弈论在经济学中应用的最广泛、最成功。如前面介绍过的古诺均衡,就属于经济学中的博弈过程。
 
第一节  基本概念  
一、博弈论 1.定义:博弈论是描述、分析多人决策行为的一种决策理论,是多个经济主体在相互影响下的多元决策,决策的均衡结果取决于双方或多方的决策。如下棋,最后的结果就是由下棋双方你来我往轮流做出决策,决策又相互影响、相互作用而得出的结果。     2.博弈论与优化理论的异同点(1)相同点:博弈论与优化理论都是在给定的条件下,寻求最优决策的过程。     (2)不同点:     A、优化理论可以看成是单人决策,而博弈理论可以看成是多人决策。     在优化理论的决策过程中,影响结果的所有变量都控制在决策者自己手里;而在博弈论的决策过程中,影响结果的变量是由多个决策者操纵的。如企业在追求成本最小化、产量最大化、利润最大化的过程中总是假定外部条件给定,这实际上表明是一个优化问题,因为除了给定的外部条件外,剩下的因素都有决策者来控制,从而决策者自己就能控制决策的结果;如果外部条件不是给定的,而是有其他主体参与的过程,这时的决策过程就变成了一个博弈过程了,因为决策的最终结果不但取决于决策者本身,而且也取决于其他决策者的决策。     B、优化过程是一个确定的过程,而博弈过程是确定性和不确定性的统一。     优化过程是一个确定的过程,因为做出决策后,确定的结果就出来了。说博弈过程有确定性,是因为决策各方的决策做出后,每一方的收益就确定了;说博弈过程有不确定性,在于一方做出决策后,影响结果的变量还有众多的其他决策者,在不知道其他主体行为的情况下,结果就不确定。 例如:在一次具体的战斗中,一方是否发起进攻,是一个决策。如果发起进攻,对方肯定有所反应,客观上讲,必然会有一个确定的结果存在,这是确定性的表现。但是最后的结果如何,取决于对方如何应对,所以在发起进攻时,并不能知道结局是怎样的,这就是不确定性的表现。如果一方发起进攻后,另一方马上投降,则战斗结束;如果对方进行反攻,从理论上来讲,结果取决于双方实力以及双方收益的大小。由此可以看出博弈的广泛存在,在现实生活中做出任何决策时,实际上都受到其他主体决策的影响并对我们做决策产生一定影响,决策的结果除了由我们自己决定外还要受到其他决策主体的影响,这实际上就是一个博弈过程。     二、参与者(PLAYER)     参与博弈的利益主体叫做参与者。英文原意为玩主,也有译成局中人的。在二人博弈中,有两个参与者;在三人博弈中,有三个参与者;在多人博弈中,有多个参与者。    三、策略和策略空间 1.策略在给定条件博弈中,参与者完整的一套行动计划叫做策略。例如我国古代著名的谋略故事“田忌赛马”中,国王的赛马计划是:先出上等马,再出中等马,最后出下等马;田忌的赛马计划是:先出下等马,再出上等马,最后出中等马。这里的赛马计划就是一套完整的行动计划,也就是一个策略。 2.策略空间参与者可以选择的策略的全体就组成了策略空间。例如在“田忌赛马”中,共有六种行动方案可供选择:上中下(先出上等马,再出中等马,最后出下等马)、上下中、中上下、中下上、下上中、下中上。决策时田忌可以选择其中任何一个策略,在故事中,因为国王固定选择了上中下,所以田忌选择了下上中,从而赢得了比赛。任何一人策略的改变都将使结果也随之改变,比如国王选择了中下上,而田忌选择了下上中,则国王将赢得比赛。     四、报酬函数与报酬矩阵     1.报酬函数     每一个参与博弈的参与者,他的收益依附于各个参与者所出的策略,这种收益与策略的依附关系就构成了报酬函数。也就是说,第i个参与者的收益取决于所有参与者的策略,而不仅仅是自己的策略,表示成数学式子就是:Ri=Ri(S1,S2,…Sn)。其中Ri表示第i个参与者的收益,Si (i=1,…n) 表示第i个参与者所出的策略。 2.报酬矩阵参与博弈的多个参与者的报酬可以用一个矩阵或框图表示,这样的矩阵或框图就叫做报酬矩阵。例如有甲乙两个供货商组成一个价格卡特尔,双方都有选择遵守约定价格或者违反约定价格的权利。报酬矩阵如下图所示:   乙 守约 违约 甲 守约 8,8
6,10 违约 10,6 7,7 图8-1 矩阵中每组数字中的前一个数字表示甲的收益,后一个数字表示乙的收益。当甲守约时,乙如果守约,收益为8,乙如果违约,收益为10;当甲违约时,乙如果守约,收益为6,乙如果违约,收益为7。所以,当甲守约时,乙会选择违约(10>8);当甲违约时,乙也会选择违约(7>6)。反之不管乙如何选择,甲都会选择违约,最终的结果是双方都选择违约。报酬矩阵改变,就会影响到双方的决策。例如双方的报酬矩阵变成下图所示:   乙 守约 违约 甲 守约 12,12
2,10 违约 10,2 -4,-4 图8-2     此时双方可能都选择守约,因为当甲守约时,乙会选择守约(12>10);当甲违约时,乙也会选择守约(2>-4)。反之不管乙如何选择,甲都会选择守约,最终的结果是双方都选择守约。 博弈过程参与者的决策行为要受到博弈规则的影响,即博弈规则的变化会改变报酬矩阵中的报酬值。比如在图 8-1中,由于卡特尔中的每一个供货商都追求自身利益的最大化,并且没有措施来保证遵守价格约定,表面上可能都信誓旦旦的承诺守约,但是实际中双方会违约。如果卡特尔追求整体利益的最大化,并且由于历史、政治、制度、惩罚等措施来保证遵守价格约定,双方就可能和平共处,遵守价格约定。在历次中东战争中,由于民族宗教原因,OPEC石油的产量和价格都得到了严格的执行。     五、均衡及博弈的解当博弈的所有参与者都不想改换策略时所达到的稳定状态叫做均衡,均衡的结果叫做博弈的解。比如图8-1中甲乙两个供货商组成的卡特尔。不管甲如何选择,乙必然选择违约,同样不论乙如何选择,甲必然选择违约。最终双方都选择了违约,并且只要给定的条件不变,双方就都不会改变策略,结果非常稳定,达成均衡。在这个均衡中,不管甲如何选择,乙都不会改变策略,同样无论乙如何选择,甲也不会改变策略,这种均衡就叫做占优均衡。这种无论对方如何决策,自己总是会选择的策略叫做占优策略,由双方的占优策略所达成的均衡叫做占优均衡。再比如,在学校中,学生平时学习可能是非常努力也可能是非常懒散;老师可能把考试题出的很难,也可能出的很容易。从博弈论的角度,这里的老师和学生就构成了一个博弈,双方的报酬矩阵如下:  
老师出考题


学生学习
努力
90,85
100,90
懒散
50,60
90,70
图8-3
由于老师出难题比出容易题要花费更多的时间和精力,所以收益较低,从而无论学生平时努力程度如何,老师一定选择出容易的题;由于学生只要努力学习就会取得更好的成绩,所以无论老师所出考题难度如何,学生一定会选择努力学习,这同样构成一个占优均衡。经常遇到的还有一种均衡,是有条件的均衡,叫做纳什均衡。简单的说就是敌变我变、敌不变我亦不变。在后面第二节中将详细介绍纳什均衡。六、囚犯两难困境(prisoners’ dilemma) 囚犯两难困境是博弈论中一个著名的例子,讲的是甲乙两名嫌疑犯作案后被警察抓住,分别被关在不同的屋子里受审,双方不能互通消息,每名嫌疑犯都面临坦白和不坦白两种选择。警察告诉他们:在两人都坦白的情况下,各判刑10年;在两人都不坦白的情况下,各判刑3年;在一人坦白另一人不坦白的情况下,坦白的一方会被从轻处罚,只被判刑1年,不坦白的一方则被重判15年。可以根据坦白后是否会受到制裁两种情况来讨论最终的均衡结果。     1、坦白后不会受到制裁时的情况     此时,双方收益矩阵如下:  

不坦白
坦白

不坦白
-3,-5
-15,-1
坦白
-1,-15
-10,-10
图8-4
如图,在乙不坦白的情况下,如果甲坦白,甲会被从轻处罚,只被判刑1年,乙被重判15年;如果甲也不坦白,由于证据不足,甲乙都只会被判刑3年。在乙坦白的情况下,如果甲也坦白,甲乙会被判刑10年;如果甲不坦白,乙会被从轻处罚,只被判刑1年,甲则被重判15年。可见,在乙不坦白的情况下,甲最好是坦白,从而可以被从轻处罚;在乙坦白的情况下,因为被判刑10年总比15年要好,甲最好也是坦白,所以甲会选择坦白。 同理,无论甲如何选择,乙的最好选择也是坦白。结果双方都选择坦白,都被判刑10年。可见,我国公安机关”坦白从宽,抗拒从严“的心理攻势在大多数情况下都是可以奏效的。囚犯两难困境说明个人的理性可能导致集体结果的不妙。在现实社会中,人人都追求完美反而可能会导致社会变得很糟糕。 2.坦白后会受到制裁时的情况博弈论的一个重要思想就是规则改变报酬矩阵,改变了报酬矩阵就会影响到行为方式。如果犯罪组织有着严格的惩罚制度,任何一个罪犯坦白后,不论坦白的事情严重与否,犯罪组织一定会杀人灭口,并且总是能迅速做到。这个规则将改变报酬矩阵,新的报酬矩阵如下图所示:  

不坦白
坦白

不坦白
-3,-3
-15,-∝
坦白
-∝,-15
-∝,-∝
图8-5 由于坦白后将被灭口,所以收益将是-∝ 。在乙不坦白的情况下,甲最好是不坦白;在乙坦白的情况下,因为被判刑15年总比死去要好,甲最好也是不坦白,所以甲会选择不坦白。同理,无论甲如何选择,乙的最好选择也是不坦白。结果双方都选择不坦白,各自被判刑3年。