大数法则(5)强大数法则(Law of large numb
2020-06-29


连结:大数法则(4)弱大数法则

摘要:延续上一篇的「弱大数法则」,本文介绍相对于机率收敛更强的「强大数法则(strong law of large numbers)」,最后以一例说明两种不同收敛方式的差别。

对于上一节事件 \(A\) 发生的相对频率 \(f_n(A)=n(A)/n\),我们想知道 \(n\rightarrow\infty\) 时,其极限行为。

直观上,由弱大数法则,会认为:\((1)~~~\lim_{n\to \infty} f_n(A)=p\)

其中 \(p=P(A)\)。但我们知道此并不正确。因极限不见得要存在,且即使存在,也不见得是 \(p\)。

对 \(n\geq 1, f_n(A)\) 有时恆为 \(0\),有时恆为 \(1\)。前者的极限为 \(0\),后者的极限为 \(1\)。

我们最多可以问的是:是否对『几乎所有』(almost all)回的观测,\((1)\) 式皆成立?

在此,一回观测指的是第 \(1\) 次,第 \(2\) 次\(\cdots\)第 \(n\) 次,\(\cdots\),一直无止尽地进行。

我们想知道观测到 \((1)\) 式的机率是否为 \(1\) ?

即是否有 \((2)~~~P(\lim_{n\to \infty} f_n(A)=p)=1\)

或等价地问 \((3)~~~P(\lim_{n\to \infty} f_n(A)\ne p)=0\) 成立否?

只是 \((3)\) 式不见得好验证。

我们得先找出 \(\lim\limits_{n\rightarrow\infty}f_n(A)\neq p\) 的观测之集合 \(N\),再看 \(P(N)\) 是否为 \(0\)。

除非 \(p=1\),否则一个 \(A\) 一直发生的观测,当然使 \(f_n(A)\nrightarrow p\)。故此观测属于 \(N\)。

我们知道第 \(1\) 至第 \(n\) 次观测,\(A\) 皆发生的机率为 \(p^n, n\geq 1\)。而 \(n\rightarrow\infty\) 时,\(p^n\) 趋近至 \(0\)。

但 \(N\) 中可是包含无限多个观测,是否可数呢?不能再说下去了,读者大约已搞糊涂了。总之,\(N\) 中有那些元素,不是那幺容易描述,因此要验证 \(P(N)=0\) 并非易事。

由 \((1)\) 式,后来就衍生出更一般的强大数法则。

弱大数法则与强大数法则,本质上并不是两个不同的法则,而是描述样本平均以不同的方式收敛至母体平均。弱大数法则是说:当样本数无止尽地增大,样本平均与母体平均的差距,可以小于任意正数之机率,将无止尽的接近 \(1\)。而强大数法则是说:当样本数无止尽的增大,样本平均的极限与母体平均相等的机率,将无止尽的接近 \(1\)。即

设对 \(\forall n\ge 1\),\(X_1,\cdots,X_n\) 为 \(\mathrm{iid}\) 之随机变数,且设 \(E(X_1)\) 存在,则样本平均 \(\overline{X}_n\),
当 \(n\to\infty\) 时,会几乎确实地收敛(converges almost surely) 至 \(E(X_1)\),以

\((4)~~~\displaystyle \overline{X}_n \xrightarrow[n\to\infty]{a.s.} E(X_1)\) 表之。

在此几乎确实地收敛定义如下:

定义2. 设有一数列之随机变数 \(\{Y_n,~~n\ge 1\}\),及一随机变数 \(Y\),若

\((5)~~~P(\lim_{n\to\infty} Y_n=Y)=1\)

则称 \(n\to\infty\) 时,\(\{Y_n,~n\ge 1\}\) 几乎确实收敛至 \(Y\),且以 \(\displaystyle Y_n\xrightarrow[n\to\infty]{a.s.} Y\) 表之。

\((5)\( 式等价于

\((6)~~~P(\lim_{n\to\infty} |Y_n-Y|\le \varepsilon)=1,~~~\forall \varepsilon>0\)

因此 \((4)\) 式与底下三式等价

\((7)~~~P(\lim_{n\to\infty} \overline{X}_n=E(X_1))\)

\((8)~~~P(\lim_{n\to\infty} |\overline{X}_n-E(X_1)|\le \varepsilon)=1,~~~\forall \varepsilon>0\)

\((9)~~~P(\lim_{n\to\infty} |\overline{X}_n-E(X_1)|> \varepsilon)=0,~~~\forall \varepsilon>0\)

不少初学者对于 \((5)\) 式的涵义感到困惑,我们略为说明如下:

首先不论定义1或定义2中,\(\{Y_n,n\geq 1\}\) 要机率收敛,或几乎确实地收敛至 \(Y\),

\(\{Y_n,n\geq 1\}\) 与 \(Y\),皆要定义在同一机率空间。

现假设 \(\{Y_n,n\geq 1\}\) 与 \(Y\) 皆定义在同一机率空间

\((\Omega,F,P)\)

又注意到这些随机变数皆是由 \(\Omega\) 映至 \(R\)。则 \((5)\) 式就是

\((10)~~~P({\omega|\omega\in\Omega,~\lim_{n\to\infty}Y_n(\omega)=Y(\omega)})=1\)

在这类式子中,我们常常省略「\(\omega\in\Omega\)」,即只写成

\((11)~~~P({\omega|~\lim_{n\to\infty}Y_n(\omega)=Y(\omega)})=1\)

甚至简单至以 \((5)\) 式表之。大家在微积分中学过函数数列。设有一数列之函数 \(f_n, n\geq 1\) 且设这些函数有相同的定义域。对每一定义域中的 \(x\),可得一数列 \(f_n(x), n\geq 1\)。有些 \(x\) 会使 \(\lim_{n\rightarrow\infty}f_n(x)\) 存在,有些则不会。

例如:取 \(f(x)=x^n+n^2(1-x^2)+nx^{2n}+(\cos(x-0.5))^n,~~~x\in [-1,1],~n\ge 1\)

\(f(x)=0,~~~x\in [-1,1]\)

则满足 \(\lim_{n\to\infty}f_n(x)=f(x)\) 之 \(x\) 的集合为 \([-1,1]\backslash {-1,0,0,5,1}\)。

不收敛点仅 \(-1,0,0.5,1\) 等 \(4\) 点。其勒贝格测度为 \(0\),

故若在 \([-1,1]\) 中可数个点改变函数 \(f\) 之值,仍会有 \(f_n, n\geq 1\) 几乎确实地收敛至 \(f\)。

例如:取 \(g(x)=1\),若 \(x\) 为 \([-1,1]\) 中之有理数;\(g(x)=0\),若 \(x\) 为 \([-1,1]\) 中之无理数。

则 \(f_n,~n\ge 1\) 几乎确实地收敛至 \(g\)。

机率函数为一测度,\(\{Y_n, n\geq 1\}\) 是否几乎确实地收敛至 \(Y\)?

就要看 \(\{\omega|\lim\limits_{n\rightarrow\infty}Y_n(\omega)=Y(\omega)\}\) 之机率是否为 \(1\),

或等价地说不收敛的 \(\omega\) 之集合 \(\{\omega|\lim\limits_{n\rightarrow\infty}Y_n(\omega)\neq Y(\omega)\}\),其机率是否为 \(0\)。

要注意的是,与实数系统不同,有时候一个 \(\omega\) 的机率便为正,特别是若机率空间为离散型。在机率论里,关于几乎确实地收敛,学生往往对其意义感到很茫然。其实只要与实数里函数数列的收敛相对照,就不难理解了。

当 \(\mathrm{iid}\) 的 \(\{X_i, i\geq 1\}\) 以 \(\mathrm{Ber}(p)\) 为共同分布,此时强大数法则之证明,可参考黄文璋(2010)pp. 324-326。一般分布下的证明,见Chung(2001) Therem 5.4.2。又强大数法则亦有非 \(\mathrm{iid}\) 随机变数的版本。在机率论里会证明,几乎确实地收敛会导致机率收敛。因此前者是较强的收敛,后者是较弱的收敛。这是何以会各命名为强大数法则及弱大数法则。

我们以一简单的例子,来略为说明机率收敛与几乎确实地收敛之别:假设科学家研究複製人技术逐渐进步,第 \(k\) 次複製时,将人体分成 \(k\) 个区域,而製出来的,皆有一个区域与原来的人体不同。其余 \(k-1\) 个区域则一模一样。但与原来人体不同的区域,任二複製品可能不一样。机率收敛就对应这个情况:随着 \(k\) 之增大,每一複製品与原来人体的差异愈来愈小。但对原来人体,不论 \(k\) 多大,任选一区域,同一批複製品中,会有很多个与此区域不同。这就对应不几乎确实地收敛。

现在看另一情况,第 \(k\) 次複製,将人体划分的 \(k\) 个区域,是由头顶依序至脚底。複製的技术逐渐改善,每一批複製品皆只有一个区域与原来人体不同,而且都是最靠近脚底的那个区域不同。则随 \(k\) 之增大,每一批複製品,与原来人体逐渐可重叠,几乎不分轩轾。这就对应几乎确实地收敛。

最后,强大数法则亦有随机变数非 \(\mathrm{iid}\) 的版本,如见黄文璋(2010)定理7.8。此处只是初步的介绍,不多讨论。


参考文献


上一篇:
下一篇: