随机变量的收敛

概率论中有若干关于随机变量收敛（Convergence of random variables）的定义。研究一列随机变量是否会收敛到某个极限随机变量是概率论中的重要内容，在统计概率和随机过程中都有应用。在更广泛的数学领域中，随机变量的收敛被称为随机收敛，表示一系列本质上随机不可预测的事件所发生的模式可以在样本数量足够大的时候得到合理可靠的预测。各种不同的收敛定义实际上是表示预测时不同的刻画方式。

简介

正如一个数列可能收敛到某个极限量，一列函数可能收敛到某个极限函数一样，随机收敛指的是一系列随机变量 $\left(X_{n};\;n\in \mathbb {N} \right)$ 在n趋向于无穷大时，会越来越接近某个固定的极限。这个极限可能是指：

$X_{n}$ 趋向某个固定的数；
$X_{n}$ 趋向某个确定函数的输出值；
$X_{n}$ 的概率分布越来越接近某个特定的随机变量的概率分布；
$X_{n}$ 和某个特定随机变量的差别的平均值（数学期望值）趋向于0；
$X_{n}$ 和某个特定随机变量的差别的方差趋向于0。

等等。这些不同的极限的定义，可以严格地写成不同的收敛方式的定义。

Remove ads

几乎必然收敛

几乎必然收敛，或称为以概率1收敛、殆必收敛，相当于实分析中函数几乎处处收敛的定义。事实上，随机变量的本质是样本空间上的函数，因此这两种收敛实质上是一样的。

定义

称概率空间 $(\Omega ,{\mathcal {F}},\mathbb {P} )$ 中的一列随机变量 $X_{n}$ 几乎必然收敛，如果 $X_{n}$ 收敛这一事件几乎必然发生，即

\mathbb {P} \left(\lim _{n\to \infty }X_{n}{\text{存在}}\right)=1.

也就是说，序列 $X_{n}$ 几乎必然收敛至 $X$ ，如果 $\mathbb {P} \left(\{\omega \in \Omega :\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\}\right)=1.$ 记作 $X_{n}{\xrightarrow {a.s.}}X$ 或 $X_{n}\to X$ a.s. (缩写 a.s. 表示英文 almost surely)。

如果随机变量的取值空间是度量空间 $(S,d)$ （例如实数空间, 度量即为两个实数的距离 $d(x,y)=|x-y|$ ），几乎必然收敛即

\mathbb {P} {\Big (}\lim _{n\to \infty }d{\big (}X_{n},X{\big )}=0{\Big )}=1

借助集合上极限和下极限的记号，几乎必然收敛亦可定义为

\mathbb {P} {\Big (}\liminf {\big \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|<\varepsilon {\big \}}{\Big )}=1

对任意的正实数 $\varepsilon >0$ 成立。

几乎必然收敛并不能由拓扑诱导而来^[1]，也因此不能定义相应的度量结构。

Remove ads

依概率收敛

设 $(X_{n};\,n\in \mathbb {N} )$ 是一个随机变量序列， $X$ 是一个随机变量。如果对于任意的正实数 $\epsilon >0$ ，都有：

\lim _{n\to \infty }\mathbb {P} (|X-X_{n}|\geq \epsilon )=0

那么称序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收敛到 $X$ ，记作： $X_{n}{\xrightarrow[{n\to \infty }]{\mathbb {P} }}X$

如果 $(X_{n};\,n\in \mathbb {N} )$ 的取值空间是一个可分度量空间(S, d)，那么依概率收敛的定义为^[2]：

\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0,\quad \forall \varepsilon >0.

依概率收敛和依概率1收敛的定义有相似之处，但本质上，依概率1收敛是比依概率收敛更“强”的收敛性质。如果一列随机变量依概率1收敛到某个极限，那么它必然也依概率收敛到这个极限，但反之则不然。一个实数上的例子是：设概率空间 $\left({\mathit {\Omega }},{\mathcal {F}},\mathbb {P} \right)$ 是区间 ${\mathit {\Omega }}=[0,1)$ 上的一个连续型均匀分布 $\mathbb {P} =\mathbf {U}$ 。一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 定义为：

X_{1}=\mathbf {1} _{\left\{\omega \in [0,1)\right\}}=\mathbf {1}

X_{2}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{2}})\right\}},\qquad X_{3}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},1)\right\}}

X_{4}=\mathbf {1} _{\left\{\omega \in [0,{\frac {1}{4}})\right\}},\qquad X_{5}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{4}},{\frac {1}{2}})\right\}},\qquad X_{6}=\mathbf {1} _{\left\{\omega \in [{\frac {1}{2}},{\frac {3}{4}})\right\}},\qquad X_{7}=\mathbf {1} _{\left\{\omega \in [{\frac {3}{4}},1)\right\}}

\cdots \;

\forall (k,m)\in \mathbb {N} ,\,\,0\leqslant k\leqslant 2^{m}-1,\,\,X_{2^{m}+k}=\mathbf {1} _{\left\{\omega \in [{\frac {k}{2^{m}}},{\frac {k+1}{2^{m}}})\right\}}

由于

\forall 2^{m}\leqslant n\leqslant 2^{m+1}-1,\,\,\mathbb {P} \left(|X_{n}-0|\geqslant \varepsilon \right)={\frac {1}{2^{m}}}

所以

X_{n}{\xrightarrow {\mathbb {P} }}0

，

另一方面，考虑 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 这一组随机变量，它们取值为1的集合的并集恰好是总区间，因此对每一个 $\omega \in [0,1)$ ，总会有 $X_{2^{m}}$ 到 $X_{2^{m+1}-1}$ 之间的某个变量 $X_{2^{m}+k_{m}}$ ，使得

X_{2^{m}+k_{m}}(\omega )=1

所以，对任意一个 $\omega \in [0,1)$ ，

\lim _{n\to \infty }|X_{n}(\omega )-0|\neq 0

，

即是说， $(X_{n};\,n\in \mathbb {N} )$ 并不依概率1收敛到0。从例子中可以看到，依概率收敛比依概率1收敛更为宽松的地方是：当n趋于无穷大的时候，只要偏离极限函数的 $\omega$ （即是集合 $\left\{\omega _{n};\,|X_{n}(\omega _{n})-X(\omega _{n})|\geqslant \varepsilon \right\}$ 中的 $\omega _{n}$ ）“足够少”，就能使得依概率收敛成立了，这些 $\omega _{n}$ 的集合可以随着n不同而不同；而依概率1收敛则要求 $\omega _{n}$ 的集合固定地缩减至一个概率为0的集合。因此，依概率1收敛要比依概率收敛更为严格。

Remove ads

性质

依概率收敛蕴含依分布收敛：一个依概率收敛的随机变量序列必然也依分布收敛到同一个极限。
在离散概率空间中，依概率收敛和依概率1收敛是等价的。
依分布收敛蕴含依概率收敛当且仅当依分布收敛的极限是一个常数。
连续映射定理说明：对任意连续函数 $g$ ，如果随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依概率收敛到 $X$ ，那么序列 $(g(X_{n});\,n\in \mathbb {N} )$ 依概率收敛到 $g(X)$
依概率收敛定义了确定概率空间上的随机变量空间上的一个拓扑。这个拓扑可以用樊𰋀度量进行度量化^[3]。
$d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \Pr {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}.$

Remove ads

平方平均收敛与 L p {\displaystyle \mathbf {L} ^{p}} 收敛

另一种收敛的定义与测度的积分有关。在积分理论中，如果两个函数 $f$ 和 $g$ 满足 $\int _{\mathcal {I}}(f-g)^{2}d\mu =0$ ，那么这两个函数在关于测度 $\mu$ 的平方可积空间中相等。随机变量的平方平均收敛与此相似：如果对平方可积的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在随机变量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[(X_{n}-X)^{2}\right]=0$ ，那么就说序列 $(X_{n};\,n\in \mathbb {N} )$ 平方平均收敛到 $X$ ，记作：

X_{n}{\xrightarrow {\mathbf {L} ^{2}}}X

由于 $\mathbf {L} ^{2}$ 空间是完备的，极限 $X$ 也一定平方可积。

对于更一般的 $\mathbf {L} ^{p}$ 空间，也有类似的定义：如果对 $\mathbf {L} ^{p}$ 空间中的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ ，存在 $\mathbf {L} ^{p}$ 中的随机变量 $X$ ，使得 $\lim _{n\to \infty }\mathbb {E} \left[|X_{n}-X|^{p}\right]=0$ ，那么就说序列 $(X_{n};\,n\in \mathbb {N} )$ 依 $\mathbf {L} ^{p}$ 收敛到 $X$ ，记作：

X_{n}{\xrightarrow {\mathbf {L} ^{p}}}X

当常数 $p=1$ 时，也称为平均收敛。

Remove ads

依分布收敛

依分布收敛是最宽松的收敛方式之一。这种收敛不要求查看每个 $\omega$ ，只要求序列的分布趋向于某个极限。直觉上，一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ ，如果：

对所有的

a

，都有

\mathbb {P} (X_{n}\leqslant a)\rightarrow \mathbb {P} (X\leqslant a)

。

更严格的定义是探讨随机变量 $X_{n}$ 的累积分布函数 $F_{n}(x)=\mathbb {P} (X_{n}\leqslant x)$ 。设有实值的随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 和某个随机变量 $X$ （其累积分布函数为 $F(x)$ ），如果对 $F(x)$ 的每个连续点 $x$ ，都有 $\lim _{n\to \infty }F_{n}(x)=F(x)$ ，那么就说 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ 。记作：

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {D}}}X

，

X_{n}{\xrightarrow[{n\to \infty }]{\mathit {d}}}X

或

X_{n}{\xrightarrow[{n\to \infty }]{\mathcal {L}}}X

由于依分布收敛只和随机变量的分布相关，所以也可以称一系列随机变量（依分布）收敛于某个分布。设 ${\mathcal {L}}_{X}$ 是极限 $X$ 的分布，那么依分布收敛也可以记作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {L}}_{X},\,\,X_{n}\rightsquigarrow X

或

{\mathcal {L}}(X_{n})\to {\mathcal {L}}(X)

例如一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到标准正态分布，就可以记作：

X_{n}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,1).

Remove ads

性质

作为最弱的收敛方式之一，依分布收敛无法推出其它的收敛方式。对于存在概率密度函数的连续型随机变量序列，依分布收敛并不能推出其概率密度函数也同样收敛。例如对于概率密度函数为 $f_{n}(x)=\left(1-\cos(2\pi nx)\right)\mathbf {1} _{x\in (0,1)}$ 的随机变量序列，其依分布收敛到均匀分布的随机变量，但其概率密度函数不收敛^[4]。
依分布收敛的等价定义：一个随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ $X$ 和以下命题中的任意一个等价：
- 对所有的有界连续函数 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 对所有具有利普希茨连续性质的函数 $f$ ，都有： $\mathbb {E} [f(X_{n})]\rightarrow \mathbb {E} [f(X)]$ ；
- 对所有上有界的上半连续函数 $f$ ，都有： $\limsup \mathbb {E} [f(X_{n})]\leqslant \mathbb {E} [f(X)]$ ；
- 对所有下有界的下半连续函数 $f$ ，都有： $\liminf \mathbb {E} [f(X_{n})]\geqslant \mathbb {E} [f(X)]$ ；
- 对所有闭集 $C$ ，都有： $\limsup _{n\to \infty }\mathbb {P} \left(X_{n}\in C\right)\leqslant \mathbb {P} \left(X\in C\right)$ ；
- 对所有开集 $U$ ，都有： $\liminf _{n\to \infty }\mathbb {P} \left(X_{n}\in U\right)\geqslant \mathbb {P} \left(X\in U\right)$ ；
- 对关于 $X$ 的所有连续集 $A$ ，都有： $\lim _{n\to \infty }\mathbb {P} \left(X_{n}\in A\right)=\mathbb {P} \left(X\in A\right)$ 。
连续映射定理说明，对于连续函数g(·)，如果随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到随机变量 $X$ ，那么 $(g(X_{n});\,n\in \mathbb {N} )$ 也依分布收敛到随机变量 $g(X)$ 。
列维连续性定理：随机变量序列 $(X_{n};\,n\in \mathbb {N} )$ 依分布收敛到某个随机变量 $X$ 当且仅当对应的特征函数序列 $(\varphi _{n}(x);\,n\in \mathbb {N} )$ 逐点收敛到某个在0处连续的函数 $\varphi$ （此时随机变量 $X$ 的分布为 $\varphi$ ）。
列维-普罗科洛夫度量是依分布收敛的度量化结果。

Remove ads

关系

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads