随机博弈

定义

这类博弈由一系列阶段组成。在博弈中每一阶段的起始，博弈处于某种特定状态。每一参与者选择某种行动，然后会获得取决于当前状态和所选择行动的收益。之后，博弈发展到下一阶段，处于一个新的随机状态，这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程，然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和，或是各阶段收益平均值的下极限来计算。

数学描述

随机博弈的组成部分有：有限参与者集 $I$ ；状态空间 $M$ （可以是有限集，也可以是可测空间 $(M,{\mathcal {A}})$ ）；对于每一参与者 $i\in I$ ，存在行动集 $S^{i}\,$ （可以是有限集，也可以是可测空间 $(S^{i},{\mathcal {S}}^{i})$ ）； $P$ 是 $M\times S$ 到 $M$ 的转移概率，其中 $S=\times _{i\in I}S^{i}$ 是行动组合， $P(A\mid m,s)$ 是下一状态处于 $A$ 中的概率，而 $A$ 给定了当前状态 $m$ 和当前行动组合 $s$ ；从 $M\times S$ 到 $R^{I}\,$ 的收益函数 $g$ ，其中 $g$ 的第 $i$ 个坐标 $g^{i}\,$ 是参与者 $i$ 的收益，而 $g^{i}\,$ 是状态 $m$ 和行动组合 $s$ 的函数。

博弈以某个初始状态 $m_{1}$ 开始。在阶段 $t$ 中，参与者最先观测到 $m_{t}$ ，同时选择行动 $s_{t}^{i}\in S^{i}$ ，然后观测到行动组合 $s_{t}=(s_{t}^{i})_{i}$ ，然后以概率 $P(\cdot \mid m_{t},s_{t})$ 自然选择 $m_{t+1}$ 。一次随机博弈 $m_{1},s_{1},\ldots ,m_{t},s_{t},\ldots$ 定义了一个收益流 $g_{1},g_{2},\ldots$ ，其中 $g_{t}=g(m_{t},s_{t})\,$ 。

例子

下面给出随机博弈的一个例子：

当前有任意个装着球的桶，每个桶中球的数目也是任意的，两位参与者轮流从中取出球，且需要遵守如下规则：

每一步应至少取出一只球，且只能从某一桶中取走部分或全部球；
谁取到最后一只球，谁就获胜。

重要结论

贴现因子为 $\lambda$ （ $0<\lambda \leq 1$ ）的贴现博弈 $\Gamma _{\lambda }$ 中，参与者 $i$ 的收益是 $\lambda \sum _{t=1}^{\infty }(1-\lambda )^{t-1}g_{t}^{i}$ 。 $n$ 阶段博弈中，参与者 $i$ 的收益是 ${\bar {g}}_{n}^{i}:={\frac {1}{n}}\sum _{t=1}^{n}g_{t}^{i}$ 。

若存在有限多个状态和行动的二人零和博弈 $\Gamma _{n}$ （各自是 $\Gamma _{\lambda }$ ）的值为 $v_{n}(m_{1})$ （各自是 $v_{\lambda }(m_{1})$ ），则 $v_{n}(m_{1})$ 在 $n$ 趋于无穷时收敛到一个极限，且 $v_{\lambda }(m_{1})$ 在 $\lambda$ 趋于 $0$ 时收敛到相同的极限。这一结论已被杜鲁门·彪利（Truman Bewley）和艾朗·克尔伯格（Elon Kohlberg）于1976年证明。^[2]

非贴现博弈 $\Gamma _{\infty }$ 中，参与者 $i$ 的收益是各阶段收益平均值的极限。在定义二人零和博弈 $\Gamma _{\infty }$ 的值与非零和博弈 $\Gamma _{\infty }$ 的均衡收益之前需要注意一些事情：若对于每一 $\varepsilon >0$ 都有正整数 $N$ 、参与者1的策略 $\sigma _{\varepsilon }$ 和参与者2的策略 $\tau _{\varepsilon }$ ，二人零和随机博弈 $\Gamma _{\infty }$ 的一致值（uniform value） $v_{\infty }$ 存在，这样对于每一 $\sigma$ 、 $\tau$ 和每一 $n\geq N$ ，博弈中由 $\sigma _{\varepsilon }$ 和 $\tau$ 定义的概率的 ${\bar {g}}_{n}^{i}$ 期望至少为 $v_{\infty }-\varepsilon$ ，由 $\sigma$ 和 $\tau _{\varepsilon }$ 定义的概率的 ${\bar {g}}_{n}^{i}$ 期望至多为 $v_{\infty }+\varepsilon$ 。让·弗朗索瓦·梅顿斯（Jean Francois Mertens）和亚伯拉罕·奈曼（Abraham Neyman）于1981年证明二人零和随机博弈具有一致值。^[3]

若参与者数量有限且行动集和状态集有限，则有限阶段随机博弈总有纳什均衡，对于总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒（Nicolas Vieille）已经证明当总收益是各阶段收益平均值的下极限时，所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过，当参与者多于2名时，随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。^[4]

应用

随机博弈在经济学、演化生物学和计算机网络中都有应用。^[5]事实上，随机博弈是重复博弈这类每一阶段都处于相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。^[2]菲拉尔和乌瑞兹所著的书籍更为基础，书中提供了马尔可夫决策过程（MDP）和二人随机博弈理论的严密的统一处理方法。^[6]他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。

定义

数学描述

例子

重要结论

应用

参考文献

Wikiwand - on