大数法则(3)巨数法则(Law of truly large
2020-06-29


连结:大数法则(2)极限的定义

摘要:本文举例说明何谓「巨数法则(law of truly large numbers)」,并强调其与「大数法则」之不同。

巨数法则,虽然英文名为 law of truly large numbers,但其实与 law of large numbers 并不太相干。在一般正规的机率论书籍中,不会提到此法则。它主要是出现在通俗性的文章中,有时也被称为 law of large numbers。我们实在不愿称它为『真大数法则』,只好含混地称它为巨数法则。在 Diaconis and Mosteller (1989) 一文中,对此法则给出如下定义:

With a large enough sample, any outrageous thing is likely to happen.
(当样本数够大,任何耸人听闻的事,都可能发生)。

数学家 Littlewood(1953) 认为一件事发生的机率若为百万分之一,便可称之为令人惊奇(surprising)。若採用此定义,各种令人惊奇的事,可说在世界各地,经常在发生。

譬如说 \(49\) 取 \(6\) 的乐透彩,一张彩券会中头奖的机率很小,仅 \(\frac{1}{13,983,816}\)。对一特定的人,要中头奖当然很难,因他不太会买很多很多张。但『有人』中头奖,就是一常会发生的事件。又如一家庭中有 \(4\) 人生日相同,这当然不容易。若忽略闰年,假设一年有 \(365\) 天,则任 \(4\) 人生日为 \(365\) 天中某一特定的日子之机率为 \((\frac{1}{365})^4\)。因此 \(4\) 人生日相同的机率为 \(\frac{1}{365}^3=\frac{1}{48,627,125}\) 实在很小。但世界人口已超过 \(69.27\) 亿(至2011年6月),若有某一家庭中有 \(4\) 人生日相同(注意:这又比限制是父母及 \(2\) 小孩生日相同更容易发生多了),并不该太令人惊讶。

虽与大数法则不同,但由于都涉及大样本,有些人遂将二者混在一起。如 Shermer (2004,科学人杂誌2004年9月号『奇蹟? 机率?』一文为其中文翻译(姚若洁译))一文提到:

A principle of probability called the Law of Large Numbers shows that an event with a low probability of occurrence in a small numb er of trials has a high probability of occurrence in a large numb er of trials. Events with million-to-one odd shapp en 295 times a day in America.
发生机率百万分之一的奇怪事件,在美国每天可发生 \(295\) 次。这是基于美国有 \(2.95\) 亿(\(295\) 百万)的人。又顺便一提,根据美国人口普查局(U.S.Census Bureau) 网页,至2011年6月,美国人口超过 \(3.11\) 亿。

薛莫(Michael Shermer)为 Scientific American 的专栏作家。上述他那篇文章虽然有趣,但对机率的描述,却不够精确,恐易引起误会。

首先,他所引用的不是大数法则,而是巨数法则。其次,他说『在数量样本很少时,机率很小的事件,在数量样本较大时,其发生的机率会变高』(英文原意如此,这是科学人的中译)。这样讲是不对的。应该是说『发生机率很小的事件,若试验数(或说样本数)较少时,会有这种事件发生的机率不高;若试验数(或说样本数)较大时,会有这种事件发生的机率会变高』。至于单一事件发生的机率,不会随试验数之多寡而改变。另外,最后一句话改为『在一个人身上每天发生机率为百万分之一的怪事件,在美国平均一天可发生 \(295\) 次』比较恰当。

一事件发生的机率 \(p\) 虽然很小,重複观测 \(n\) 次,假设各事件相互独立,则 \(n\) 次皆未发生之机率 \((1-p)^n\),随着 \(n\) 之增大,此机率愈来愈接近 \(0\)。而至少发生一次之机率 \(1-(1-p)^n\) 则逐渐接近 \(1\)。

这也可以解释,只要观测数够多,一耸人听闻的事件,其发生就不该令人惊讶。更何况世上千奇百怪的事,实在不少。要发生某一令人匪夷所思的事,就更容易了。譬如说,美国有一研究机构,养了一批猴子,每只发一台打字机。他们每日就是在那裏乱敲,终于有一天,发现某只猴子敲出一串从华盛顿开始的美国历任总统的名字。虽然上了头版新闻,只是机率学家并不会感到惊讶。

读者可能也会明白了,何以通俗性的文章中,会称此为 law of truly large numbers 。由于阅读对象为较一般的民众,当看到一件很不寻常的事,以『真是够大的观测数』来解释,可能会较易使人觉得原来如此。巨数法则可用来解释何以生活上处处有巧合(coincidence) 。关于巧合事件之无所不在,可参考黄文璋(2003)第四章『纯属巧合』一文。几年前曾引起一阵风坡的圣经密码(The Bible Code)事件,也可以用巨数法则来解释。可参考Shermer(2003,科学人2003年7月号『圣经里真的有密码?』为其中文翻译(姚若洁译))一文。

巨数法则虽不难理解,但仍常有人无法正确使用。在『看守台湾季刊』第四卷第二期(2002年夏季号)的『编后语』中有底下一段文字:

就在完成本期彙编时,网路上看到一则新闻(7/9),英国有一对白人夫妇接受人工授精时,结果孕妇生出一对黑人双胞胎,成为英国首见人工授精搞乌龙案例。为避免出错,人工授精的过程人分严格,每个步骤都会重複检查,理论上可能会出错的机率只有百万分之一。这次不仅出错,甚至是黑白搞乌龙!这样的机率可能更低。如此低的机率,怎幺可能发生?
按台北市银行的公告,乐透彩头奖的签中机率大约是 \(525\) 万分之一。这个签中的机率更低,低于人工授精出错机率的五分之一。然而,总会有人签中!
按台电公告的核电反应炉每年发生重大灾变的机率是十万分之一。这个机率是人工授精的出错机率的 \(10\),更是签中头奖的 \(50\) 多倍。怎幺可能保证不会发生?

该如何解释呢?首先,发生机率再小的事件,只要机率为正,便都可能发生,并无法保证不会发生。但如前所述,每天有各种事物在进行,发生一件令人觉得离谱、怪诞不经的事,可以说是必然。

对于北银 \(42\) 取 \(6\) 的乐透彩,一週开奖两期,每期签注人数多达几百万甚至有几千万,有人签中头奖,自然不稀奇。那天若有人第二次中头奖,也不用太惊讶。至于台电公告的核电反应炉,每年发生重大灾变的机率是十万分之一,注意是『每年』。又假设此机率是针对『\(1\) 座』核电反应炉,而台湾目前只有 \(3\) 座核电厂。不提每年 \(3\) 座与一年开奖 \(104\) 期,且每期有几百万人签注之比,而只提 \(525\) 万(实际是 \(5,245,786\))与 \(10\) 万之比,真是明察秋毫而不见舆薪。

没人可保证核电反应炉不会发生灾变,虽我们并不清楚十万分之一的机率是如何求出,及此机率值是否正确。但如果接受台电的数据,则因核电反应炉也有其使用年限,因此在未来十年,虽会继续产生不少乐透彩头奖得主,以及发生各种乌龙事件,但台湾 \(3\) 座核电反应炉,在十年内会至少有 \(1\) 座发生灾变的机率,仍是不太高。

连结:大数法则(4)弱大数法则


参考文献:


上一篇:
下一篇: