纳什均衡

定义

纳什均衡，Nash equilibrium，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。纳什均衡是一种策略组合，使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。纳什均衡，从实质上说，是一种非合作博弈状态。
所谓纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

演化博弈论

定义

Wiki：Evolutionary game theory (EGT) is the application of game theory to evolving populations in biology.
百度百科：演化博弈论 (Evolutionary Game Theory)不再将人模型化为超级理性的博弈方，而是认为人类通常是通过试错的方法达到博弈均衡的，与生物进化原理具有共性，所选择的均衡是达到均衡的均衡过程的函数，因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。

test

基本特征

一般的演化博弈理论具有如下特征：它的研究对象是随着时间变化的某一群体，理论探索的目的是为了理解群体演化的动态过程，并解释说明为何群体将达到的这一状态以及如何达到。影响群体变化的因素既具有一定的随机性和扰动现象（突变），又有通过演化过程中的选择机制而呈现出来的规律性。大部分演化博弈理论的预测或解释能力在于群体的选择过程，通常群体的选择过程具有一定的惯性，同时这个过程也潜伏着突变的动力，从而不断地产生新变种或新特征。一般的演化博弈模型的建立主要基于两个方面：选择（Selection）和突变（Mutation）。选择是指能够获得较高支付的策略在以后将被更多的参与者采用；突变是指部分个体以随机的方式选择不同于群体的策略（可能是能够获得高支付的策略，也可能是获得较低支付的策略）。突变其实也是一种选择，但只有好的策略才能生存下来。突变是一种不断试错的过程，也是一种学习与模仿的过程，这个过程是适应性且是不断改进的。不具备这两个方面的模型不能称为演化博弈模型。
总之，演化博弈模型有如下几个特征：第一，以参与人群体为研究对象，分析动态的演化过程，解释群体为何达到以及如何达到这一状态；第二，群体的演化既有选择过程也有突变过程；第三，经群体选择下来的行为具有一定的惯性。（这里很像生物进化的优胜劣汰，和基因突变）

和博弈论的关系

博弈论注重均衡状态的研究，忽视达到均衡的过程。在博弈论中，行为主体能够立即对外部环境作出完美判断，达到均衡状态。博弈论忽视时间问题，强调行为主体瞬问的均衡，即使考虑时间问题，也把时间看作对称或可逆的。在演化博弈论中，时间占有非常重要的地位。行为主体在演化过程中不断修正和改进自己的行为，模仿成功的策略等等。

总结

演化博弈论摒弃了完全理性的假设以达尔文生物进化论和拉马克的遗传基因理论为**基础，从系统论出发，把群体行为的调整过程看作为一个动态系统，在其中每个个体的行为及其与群体之间的关系得到了单独的刻画，可以把从个人行为到群体行为的形成机制以及其中涉及到的各种因素都纳入到演化博弈模型中去，构成一个具微观基础的宏观模型，因此能够更真实地反映行为主体的多样性和复杂性，并且可以为宏观调控群体行为提供理论依据。
在演化博弈论中，行为主体被假设为程序化地采用某一既定行为，它对于经济规律或某种成功的行为规则、行为策略的认识是在演化的过程中得到不断的修正和改进的，成功的策略被模仿，进而产生出一些一般的“规则”和“制度”作为行为主体的行动标准。在这些一般的规则下，行为主体获得“满意”的收益。行为主体在演化过程中不断修正和改进自己的行为，模成功的策略等等，都需要一个相对较长的时间。演化博弈论认为，时间是不可逆的，过去时间内的状态与未来时间的状态是不对称的，因而，行为主体状态的演化跟初始的时间状态息息相关。在演化博弈模型中，随机(突变)因素起着关键的作用，演化过程常被看成是一种试错的过程。行为人会尝试各种不同的行为策略，并且每一次都将发生部分替代。

社交困境（Social dilemmas）

Wiki: A social dilemma is a situation in which an individual profits from selfishness unless everyone chooses the selfish alternative, in which case the whole group loses. （而囚徒困境就是社交困境的典型例子） Problems arise when too many group members choose to pursue individual profit and immediate satisfaction rather than behave in the group’s best long-term interests.

田野调查法

百度百科：科学的人类学田野调查方法，是由英国功能学派的代表人物马林诺夫斯基（Bronisław Kasper Malinowski）奠定的，在我国这方面卓有成绩的是著名社会学家费孝通先生。其最重要的研究手段之一就是参与观察。它要求调查者要与被调查对象共同生活一段时间，从中观察、了解和认识他们的社会与文化。田野调查工作的理想状态是调查者在被调查地居住两年以上，并精通被调查者的语言，这样才有利于对被调查者文化的深入研究和解释。传统的田野调查方法花费时间和精力，花费的成本较高，另一方面，如果方法运用有不得当的地方，那么其信度和效度也会大打折扣。

研究阶段

田野调查可分为五个阶段：准备阶段、开始阶段、调查阶段、撰写调查研究报告阶段、补充调查阶段。这里仅前三个阶段作一说明。

公共品博弈

公共品博弈的脆弱性

人们的自愿合作行为具有脆弱性的特征。这种“脆弱性”是随着实验的重复进行，公共品自愿合作水平会逐渐下降。。这种现象也被称为公共品投资额或合作水平的“期数效应”，即随着期数的增加，人们的自愿合作水平会呈现下降的趋势，即使是在单期重复甚至被试随机匹配的情况下，这种期数效应也显著存在。并且越接近博弈的后期，人们的自愿合作水平越接近于经济人假设的零水平状态，即搭便车行为侵入并占据主导优势。

公共品博弈机理机制

惩罚机制

利他惩罚往往是解决公共品自愿合作行为脆弱性的一种有效机制[7].这里文献[1]是此类研究的经典之作。

领导机制

条件合作者的行为依赖于被试对其他人贡献水平的信念，可是，在同时行动的公共品博弈中，这种来自信念的不确定以及一些被试的悲观信念会造成公共品自愿供给不足。学者们通过在公共品博弈的贡献决策阶段引入领导机制来解决由于被试的信念而导致的合作问题。在序贯公共品博弈中，追随者往往把自己的贡献决策建立在领导者的合作水平上。在领导者具有信息优势的情况下，追随者往往从领导者的贡献决策中推断信息，这可以诱发出追随者的互惠型或条件合作型行为，从而导致群体合作水平的显著提高。这类典型的研究有[8][9][10]
外生性领导机制：一般由实验者指定或者由具有信息优势的一方扮演领导者角色。在领导者与追随者之间存在信息不对称的背景下，研究表明领导者通过榜样或者牺牲自己的利益可以积极地影响追随者的合作行为，这类经典的研究是[11]。文献[12]认为在理论上在不完全信息的序贯公共品博弈实验中，领导者贡献行为有可能起到了信号传递的功能，从而带动了追随者的贡献行为，并且提高了群体的合作水平。一方面也有可能是因为追随者是互惠型且模仿追随者的行为才引起了上述行为，所以他们设计了一个实验，分别在不完全信息条件下和完全信息条件下，同时实验分别采用序贯博弈方法和同时博弈方法，信息优势的领导者以自己的贡献行为作为信号来协调与更新追随者的信念，促使80％的追随者模仿领导者行为。二是领导者在做贡献决策时已经预期到追随者的条件合作型行为
领导者的贡献水平影响着群体的合作水平，可是，领导者的贡献水平也不总是高合作型的，有些领导者贡献水平很低，这使得群体的公共品供给水平也很低，而另外一些领导者的贡献水平比较高，使得群体的公共品供给水平也比较高。文献[13]认为不同领导者的贡献水平差异在很大程度上可以由领导者的合作类型差异做出解释，在互惠型领导者的领导下群体的合作水平更高。
内生性领导机制：。内生性主要体现在实验的博弈顺序结构(序贯还是同时)由被试投票与一致通过规则决定。文献[14]试图解答三个方面的问题。一是领导者榜样作用对于VCM中的贡献率以及领导者的权力对于领导者榜样作用在VCM中的影响是怎样的；二是如果领导者是固定或者轮流，对于其在VCM中的贡献率是否有影响；三是如果领导者是内生产生的，又会是什么情况。发现领导者的榜样对于公共品的供给具有积极的影响，并且在领导者具有开除群体成员的惩罚权力时，群体内部公共品供给水平显著提高。在两种外生的领导任命方式的实验中，公共品的供给水平没有显著的差异。实验发现，40％的群体通过投票成功的产生了领导，在公共品供给水平方面，有领导的群体显著高于没有领导的群体

经典文献阅读

(1) 文献[1]研究了对搭便车者的货币惩罚。其中，博弈的每一期包含两个阶段：第一阶段，被试者同时在私人账户和公共账户间分配自己的禀赋，然后获取收益和组群内每一个其他被试者供给水平的信息反馈；第二阶段，所有被试者决定对于其他被试者有成本的惩罚。在第二期，惩罚别人则为非理性，如在理性假设下惩罚威胁的不可置信。根据逆向归纳法，对于每一个参与者来说，子博弈精炼均衡依然为０。然而，结果显示惩罚可能性的存在提高了公共品的平均供给水平，并且无论惩罚引入的顺序或者固定组群效应，或者博弈中的随机匹配，惩罚均可以显著提高公共品供给的合作水平，而且具有稳健性。

(2) 文献[2]的实验分析显示，从事于合作任务的被试者并不是因为策略原因，而是因为情感动机才进行合作的。换句话说，他们并不将惩罚视作提高合作水平的策略，而是将之视为对于公平关心的情感表达。

(3) 文献[3]在公共品博弈实验中引入反惩罚机制，并比较了自愿供给机制、[1]的惩罚机制和反惩罚机制所带来的效率。反惩罚机制几乎与惩罚机制一样，仅仅多了一个阶段（如第三阶段），在这一阶段，所有被惩罚者可能会报复那些在第二阶段惩罚他们的被试者。由于存在报复或者说反惩罚的威胁，惩罚搭便车者的意愿随之降低。结果，反惩罚机制破坏了公共品博弈中促进合作提升的制裁机制的效力

(4) 文献[6]的田野实验比较了世界范围内１６个带有反惩罚机制的公共物品投资项目，研究发现反社会惩罚强大到足以破坏内部激励制度所产生的合作增强效应。并且，研究将反惩罚行为与公民合作规范、法律系统脆弱性联系起来。

(5) 由于所谓的“挤出（ｃｒｏｗｄｉｎｇｏｕｔ）”效应使得货币惩罚的效力变得更加模糊。③如果忽视“隐藏成本”，惩罚机制的效力可能会被高估。因此，施行货币激励有时可能对合作和信任带来负面影响[4]. 相反，道义上的规劝作为一种非货币激励的形式的表现却不会比惩罚差[5].

(6) 文献[7]对1995年之后的大量后续公共品博弈实验研究进行了新的梳理，并进而总结和揭示了关于人类公共品供给问题中另外两个具有代表『生的基本规律，即群体中条件合作者的存在是人们形成自愿合作的基础，而利他惩罚能有效解决人类合作的脆弱性问题

近年来开始出现了一股新的潮流，即允许激励制度安排的**式参与。与大多数类似[1]形式的研究所采取由实验者外部施加惩罚机制不同，内部的制度设置允许被试者自己选择他们所偏好的激励机制。

参考文献

[1] Fehr E, Gachter S. Cooperation and punishment in public goods experiments[J]. Social Science Electronic Publishing, 1999, 90(90):980-994.
[2] Casari M, Luini L. Peer punishment in teams: expressive or instrumental choice?[J]. Experimental Economics, 2012, 15(2):241-259.
[3] Nikiforakis N. Punishment and Counter-Punishment in Public Good Games: Can We Really Govern Ourselves?[J]. Journal of Public Economics, 2008: 91-112.
[4] Bowles S, Hwang S H. Social Preferences and Public Economics: Mechanism design when social preferences depend on incentives[J]. Journal of Public Economics, 2008, 92(8):1811-1820.
[5] Masclet D, Noussair C, Tucker S, et al. Monetary and Nonmonetary Punishment in the Voluntary Contributions Mechanism[J]. American Economic Review, 2003, 93(1):366-380.
[6] Herrmann B, Thöni C, Gächter S. Antisocial Punishment across Societies[J]. Science, 2008, 319(5868):1362-7.
[7] Chaudhuri A. Sustaining cooperation in laboratory public goods experiments: a selective survey of the literature[J]. Experimental Economics, 2011, 14(1):47-83.
[8] Potters J, Sefton M, Vesterlund L. Leading-by-example and signaling in voluntary contribution games: an experimental study[J]. Economic Theory, 2007, 33(1):169-182.
[9] Gächter S, Renner E, Sefton M. The long-run benefits of punishment.[J]. Science, 2008, 322(5907):1510.
[10] Rivas M F, Sutter M. The benefits of voluntary leadership in experimental public goods games[J]. Economics Letters, 2011, 112(2):176-178.
[11] Hermalin B E. Toward an economic theory of leadership: Leading by example[J]. Working Papers, 1998, 88(5):1188-1206.
[12] Potters J, Sefton M, Vesterlund L. Leading-by-example and signaling in voluntary contribution games: an experimental study[J]. Economic Theory, 2007, 33(1):169-182.
[13] Gächter S, Nosenzo D, Renner E, et al. WHO MAKES A GOOD LEADER? COOPERATIVENESS, OPTIMISM, AND LEADING‐BY‐EXAMPLE[J]. Economic Inquiry, 2012, 50(4):953-967.
[14] Güth W, Levati M V, Sutter M, et al. Leading by example with and without exclusion power in voluntary contribution experiments ☆[J]. Journal of Public Economics, 2006, 91(5):1023-1042.

leeshutao / gametheory Goto Github PK

gametheory's Introduction

纳什均衡

定义

演化博弈论

定义

test

基本特征

和博弈论的关系

总结

社交困境（Social dilemmas）

田野调查法

研究阶段

公共品博弈

公共品博弈的脆弱性

公共品博弈机理机制

惩罚机制

领导机制

经典文献阅读

参考文献

gametheory's People

Contributors

Stargazers

Recommend Projects

Recommend Topics

Recommend Org

Jobs