我们已经知道,随机现象分为连续型事件(比如人的身高)和离散型事件(比如骰子的点数)。
最简单的连续型事件是均匀分布。如果绿灯、红灯和黄灯的时长比是3:2:1,那路口直接通过的概率就是50%。
均匀分布比较无趣。精彩的是不均匀的分布,比如财富…
均匀的分布千篇一律,不均匀的分布各有不同。比如人的身高分布也是不均匀的,但它和财富的分布就截然不同。
2012年我国成年男性的平均身高是1米67。姚明的身高是2米26,超过平均身高35%,吉尼斯世界纪录中记载的人类身高之最“奥尔顿巨人”高2米72,超过平均身高63%。人类身高分布的特点是:大多数人都集中在“平均值”附近,“另类份子”会随着偏离程度迅速减少。最激进发育的人也只有人类平均身高的1.63倍。
再来看人类财富的分布情况。2018全球财富报告显示全球人均财富为6.31万美元。而世界首富杰夫·贝佐斯的身家为1120亿美元,超过平均值177万倍。
1770000倍vs1.63倍,这还不是财富分布和身高分布的最大不同。简化来看,假设世界上“富人”的数量是“穷人”数量的1/10,那么在富人堆里千万富豪的数量又是百万富翁的1/10,在富豪堆里亿万富魔数量又是千万富豪的1/10,在富魔堆里百亿富尊又占了其中的1/10…
也就是说,在身高的世界里,另类份子的数量会随着偏离均值的距离“断崖式”下跌,而在财富的世界里,激进个体的数量只会稳定地减少。概率学上把前者称作正态分布(或者高斯分布),后者称作指数分布(或者幂律分布)。所以在高斯分布中,超过平均身高两倍的个体已经不存在,但在指数分布中,仍然会出现超过平均财富上万倍的个体。
区分这两种概率分布非常重要,我们再用一个例子来加深印象。假如让100个人按身高顺序排队,即使这里面有姚明,最终这些人的平均身高(也就是把所有人的身高加总再除以100)和这些人身高的中位数(也就是排在第49或者第50个人的身高)并不会相差太大。但如果把他们按财富排序,就算工人阶级的队伍里只混进了一个煤老板,最后的统计结果也很可能是全队平均而言是百万富翁,但是代表中位数那位兄弟是个没编制的临时工。
造成这一现象的根源是:财富服从指数分布,而指数分布是按固定比率下降的,所以它的概率曲线的“尾巴”可以拖得很长,即使在非常偏离的地方,概率下降到很低的程度,但极端事件仍然不能忽略不计。这就是所谓的的“长尾”。
那么我们怎么预测哪些事情服从正态分布,哪些事情又服从指数分布呢?我们先讨论正态分布。
“在对大量随机现象的研究中发现,如果一个量是由大量相互独立的随机因素影响所造成,而每一个别因素在总影响中所起的作用较小,那么这种量通常都服从或近似服从正态分布。”——北航版《概率统计及随机过程》。
我来翻译一下:简单的复杂事件大多服从正态分布。“简单”指这件事理论上可以用科学方法来预测,“复杂”指存在很多微小的不可预测的干扰项。
比如发射炮弹,理想情况下可以通过牛顿定律计算出炮弹的精确落点,这是个简单的问题。但是,炮弹在飞行过程中还会受到天气等许多复杂因素影响。因此最终的落点会以理论落点为中心呈现出正态分布。
再比如人的身高理论上是由基因决定的,所以可以根据科学的手段来预测,选拔运动员时都会有这个步骤。这也是个简单的问题。再叠加上后天环境的复杂因素后,最终的身高也会正态地分布在理论值周围。
而复杂的复杂事件不服从正态分布。你不能用公式计算出一个人应该能赚到多少钱,发财是个复杂问题。还会受机遇、时代、风水等诸多更复杂的因素影响,所以发财是个复杂的复杂问题,不服从正态分布。
下一个问题是:如果已经判断出一件事情服从正态分布,接下来我们该如何去“利用”它?
把前面的内容定量表示,这就是“中心极限定理”:20个以上的随机变量的总和或者均值就近似一个正态分布。前提是这些随机变量相互独立,每个随机变量方差有限,且任何一小部分随机变量都不贡献大部分方差。
我们用班级考试成绩来打比方,只要:
1、每个学生的成绩互不影响(没有互相抄答案)。
2、每个学生的成绩波动有限(肯定在0~100分之间)。
3、没有人能主导整个班级的成绩(比如其他人都答满分为一百分的卷子,而给班长发一万分的卷子)。
那么,人数在20以上的班级的平均成绩就服从正态分布。
决定正态分布的只有两个参数:均值和标准差。均值很好理解:同桌两人一个考了100分,一个20分,均值就是60分。标准差表示波动程度,另一桌一个61分一个59分,均值也是60分,但是标准差就比前一桌小得多。均值代表实力在哪个档次,标准差代表发挥的稳定性。
中心极限定理非常友好,它并不要求各个随机变量本身正态分布。有的学生发挥超级稳定,有的学生考分上蹿下跳,有的学生成绩跟着季节走…这些都无所谓,只要满足前面三条,那这个班级作为一个整体就服从正态分布。
中心极限定理的第一个重要结论是:在一个正态分布中,68%的结果位于一个标准差内,95%的结果位于两个标准差内,99%的结果位于三个标准差内。
比如一个学生的水平呈均值为70,标准差为2的正态分布,那他考100次,会有99次的成绩在64分~76分(三个标准差)之间。
中心极限定理的第二个重要结论是:N个相互独立的随机变量,都具有标准差σ,这些随机变量的均值的标准差等于σ/√N。
比如两个班学生的水平相同,标准差都是10分。那20人的小班的平均成绩的标准差就是10/√20≈2.2分,而60人的大班的平均成绩的标准差为10/√60≈1.3分。
如果想要班级平均成绩提高5分,对于小班而言,5分的提升在2个标准差(2.2×2=4.4)之外。结合前面中心极限定理的第一条推论,纯靠运气也有大概2%不到((1-0.95)/2)的中奖率。而对于大班而言,5分的提升在4个标准差(1.3×4=5.2)左右,中奖率远小于1%,实际上只有万分之0.3左右。
这就是说:在小群体中会观察到更多的极端事件。
你和丁俊晖打台球,肯定有多少局输多少局。但如果采用“小样本”规则,规定每局先进第一个球的算赢。熬上个通宵,你或许也能创造一次奇迹。