小白也懂博弈论：纳什均衡

原文发布于自己的博客平台 /nash-equilibrium/

具有竞争或对抗性质的行为称为博弈行为，并且博弈理论在经济学、国际关系、军事战略等很多领域都有广泛的应用，其中以纳什均衡为代表的非合作性博弈理论在日常中最为常用。

在很多场景下，比如玩德州扑克等游戏时，虽然有些时候选择的策略并不一定是全局的最优解，但却是相对于其他人的策略而做出的最优解，即每个人都是对自己最有利的解决方案，我们将其称为为 纳什均衡 。

纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是博弈论的一个重要策略组合，以约翰·纳什命名。

再解释一下，所谓纳什均衡，指的是参与者的一种策略组合，在该策略上，任何参与人单独改变策略都不会得到好处，即 每个人的策略都是对其他人的策略的最优反应 。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

枯燥的描述很难理解，下面使用几个案例来理解下。

背景：有两个囚犯A和B，犯事儿进去了，然后警官对其分开审讯，所以A和B是没有机会进行串供的

奖惩：如果双双招供，则各判2年，如果双双不招供，则各判1年，如果一个招供一个不招供，则招供的人立即释放，不招供的人判刑十年

结果：最后囚犯A和B都会选择招供，所以各判2年，这个便是此时的纳什均衡。

但是明明双双不招供才是最优解啊，其实不然，回头再看一下概念，纳什均衡其实并不是全局的最优解，而是每个人相对于每个人的策略而做出的最佳策略，下面来解释下。

我们来建立一个数学模型，使用 -2、-1、0、-10 来形容上面的奖惩，见下面的分析图。

A的心路历程：

所以，不管B招不招供，A只要招供了，对A而言是最优的策略。

同理，对于B的心路历程也相似，B也会选择招供：

所以最终的结果是A和B都选择了招供。

即此时的纳什均衡点为：A和B都招供。

综述，敲黑板，纳什均衡的前提是： 决策圈中的个体是独立，不合作，不横向沟通的

背景：有两只猪，一只是大猪，另一只是小猪，然后有一个食槽，里面会有食物落下，但是需要去远处按一下按钮，每次按一下按钮，食槽中便会补满食物。但是呢，在按按钮的来回路上，是需要消耗一定的能量的。

奖惩：跑过去按一下按钮再跑回来吃食物，会消耗一些能量，记为 -2，每次食槽中补满食物，总食物量为 10份，大猪先吃的话能吃到 9 份，小猪先吃的话，大猪能吃到 6 份，一起吃的话，大猪能吃到 7 份

结果：大猪会选择去按按钮，而小猪会选择不去按按钮，即在原地等着。

小猪心路历程：

所以，不管大猪怎么样，小猪都会选择在原地等待。

大猪心路历程：

所以，表面上看，大猪的决策是受到小猪的决策所影响的，但是分析小猪的心路历程得知，小猪是不会去按按钮的，那么大猪最后的决策还是会选择去按按钮，这样大猪的收益才会最大化。

所以综上，最终结果是大猪去按按钮，而小猪在原地等待着。

即此时的纳什均衡点为：大猪去，小猪不去。

在每次参与者都只有有限种策略选择并且允许混合策略的前提下，纳什均衡是一定存在的。

比如选举、群体之间的利益竞争、会议中的法案竞争等，是必然存在纳什均衡的。

以公司间的价格战为例：如果对方一直降价，那我方继续降价必然会出现亏本买卖，然而如果不降价，也会出现失去市场的情况，损失更大，但如果对方不降价，我方更要降价才能谋得一丝丝利益，所以只要出现价格战，必然会两败俱伤，这是纳什均衡体现的必然结局。所以要改变这种结局，双方必须坐下来谈判寻求新的利益评估分摊方案，从而改变原先的利益格局（比如当年京东和当当的一场价格战，最终以双方各占某一方面的主市场从而获得新的利益分割方案）。

纳什均衡是基于非合作博弈论的平衡不动点解

例如上文的囚徒困境问题，如果两个囚徒是有合作的，则必然不存在纳什均衡点。

所以，在现实生活中，纳什均衡这一博弈是很重要但是也是很有限的，因为在很多情况下，即使知道平衡不动点必然存在，但是往往却很难找到。

纳什均衡（这一非合作博弈论模型）仅仅是突破了博弈论中的一个局限

因为在社会这一庞大的博弈环境下，还会掺杂着复杂的经济行为，虽然社会中的大家并非是集体合作性的，但在这种庞大的非合作性对象中，纳什均衡点是几乎不可能找到的。

纳什均衡属于NP问题

（摘自 wik i上面的一段话，暂时看不懂但却觉得很有道理）纳什均衡属于NP问题，Daskalakis 证明它属于 NP 问题的一个子集，不是通常认为的 NP-完全问题，而是 PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。