“概率统计”基础科普(2):正态分布 #数理工程#一均匀分布我们已经知道,随机现象分为连续型事件(比如人的身高)和离散型事件(比如骰子的点数)。最简单的连续... 

我们已经知道,随机现象分为连续型事件(比如人的身高)和离散型事件(比如骰子的点数)。

最简单的连续型事件是均匀分布。如果绿灯、红灯和黄灯的时长比是3:2:1,那路口直接通过的概率就是50%。

均匀分布比较无趣。精彩的是不均匀的分布,比如财富…

均匀的分布千篇一律,不均匀的分布各有不同。比如人的身高分布也是不均匀的,但它和财富的分布就截然不同。

2012年我国成年男性的平均身高是1米67。姚明的身高是2米26,超过平均身高35%,吉尼斯世界纪录中记载的人类身高之最“奥尔顿巨人”高2米72,超过平均身高63%。人类身高分布的特点是:大多数人都集中在“平均值”附近,“另类份子”会随着偏离程度迅速减少。最激进发育的人也只有人类平均身高的1.63倍。

再来看人类财富的分布情况。2018全球财富报告显示全球人均财富为6.31万美元。而世界首富杰夫·贝佐斯的身家为1120亿美元,超过平均值177万倍。

1770000倍vs1.63倍,这还不是财富分布和身高分布的最大不同。简化来看,假设世界上“富人”的数量是“穷人”数量的1/10,那么在富人堆里千万富豪的数量又是百万富翁的1/10,在富豪堆里亿万富魔数量又是千万富豪的1/10,在富魔堆里百亿富尊又占了其中的1/10…

也就是说,在身高的世界里,另类份子的数量会随着偏离均值的距离“断崖式”下跌,而在财富的世界里,激进个体的数量只会稳定地减少。概率学上把前者称作正态分布(或者高斯分布),后者称作指数分布(或者幂律分布)。所以在高斯分布中,超过平均身高两倍的个体已经不存在,但在指数分布中,仍然会出现超过平均财富上万倍的个体。

区分这两种概率分布非常重要,我们再用一个例子来加深印象。假如让100个人按身高顺序排队,即使这里面有姚明,最终这些人的平均身高(也就是把所有人的身高加总再除以100)和这些人身高的中位数(也就是排在第49或者第50个人的身高)并不会相差太大。但如果把他们按财富排序,就算工人阶级的队伍里只混进了一个煤老板,最后的统计结果也很可能是全队平均而言是百万富翁,但是代表中位数那位兄弟是个没编制的临时工。

造成这一现象的根源是:财富服从指数分布,而指数分布是按固定比率下降的,所以它的概率曲线的“尾巴”可以拖得很长,即使在非常偏离的地方,概率下降到很低的程度,但极端事件仍然不能忽略不计。这就是所谓的的“长尾”。

那么我们怎么预测哪些事情服从正态分布,哪些事情又服从指数分布呢?我们先讨论正态分布。

“在对大量随机现象的研究中发现,如果一个量是由大量相互独立的随机因素影响所造成,而每一个别因素在总影响中所起的作用较小,那么这种量通常都服从或近似服从正态分布。”——北航版《概率统计及随机过程》。

我来翻译一下:简单的复杂事件大多服从正态分布。“简单”指这件事理论上可以用科学方法来预测,“复杂”指存在很多微小的不可预测的干扰项。

比如发射炮弹,理想情况下可以通过牛顿定律计算出炮弹的精确落点,这是个简单的问题。但是,炮弹在飞行过程中还会受到天气等许多复杂因素影响。因此最终的落点会以理论落点为中心呈现出正态分布。

再比如人的身高理论上是由基因决定的,所以可以根据科学的手段来预测,选拔运动员时都会有这个步骤。这也是个简单的问题。再叠加上后天环境的复杂因素后,最终的身高也会正态地分布在理论值周围。

而复杂的复杂事件不服从正态分布。你不能用公式计算出一个人应该能赚到多少钱,发财是个复杂问题。还会受机遇、时代、风水等诸多更复杂的因素影响,所以发财是个复杂的复杂问题,不服从正态分布。

下一个问题是:如果已经判断出一件事情服从正态分布,接下来我们该如何去“利用”它?

把前面的内容定量表示,这就是“中心极限定理”:20个以上的随机变量的总和或者均值就近似一个正态分布。前提是这些随机变量相互独立,每个随机变量方差有限,且任何一小部分随机变量都不贡献大部分方差。

我们用班级考试成绩来打比方,只要:

1、每个学生的成绩互不影响(没有互相抄答案)。

2、每个学生的成绩波动有限(肯定在0~100分之间)。

3、没有人能主导整个班级的成绩(比如其他人都答满分为一百分的卷子,而给班长发一万分的卷子)。

那么,人数在20以上的班级的平均成绩就服从正态分布。

决定正态分布的只有两个参数:均值和标准差。均值很好理解:同桌两人一个考了100分,一个20分,均值就是60分。标准差表示波动程度,另一桌一个61分一个59分,均值也是60分,但是标准差就比前一桌小得多。均值代表实力在哪个档次,标准差代表发挥的稳定性。

中心极限定理非常友好,它并不要求各个随机变量本身正态分布。有的学生发挥超级稳定,有的学生考分上蹿下跳,有的学生成绩跟着季节走…这些都无所谓,只要满足前面三条,那这个班级作为一个整体就服从正态分布。

中心极限定理的第一个重要结论是:在一个正态分布中,68%的结果位于一个标准差内,95%的结果位于两个标准差内,99%的结果位于三个标准差内。

比如一个学生的水平呈均值为70,标准差为2的正态分布,那他考100次,会有99次的成绩在64分~76分(三个标准差)之间。

中心极限定理的第二个重要结论是:N个相互独立的随机变量,都具有标准差σ,这些随机变量的均值的标准差等于σ/√N。

比如两个班学生的水平相同,标准差都是10分。那20人的小班的平均成绩的标准差就是10/√20≈2.2分,而60人的大班的平均成绩的标准差为10/√60≈1.3分。

如果想要班级平均成绩提高5分,对于小班而言,5分的提升在2个标准差(2.2×2=4.4)之外。结合前面中心极限定理的第一条推论,纯靠运气也有大概2%不到((1-0.95)/2)的中奖率。而对于大班而言,5分的提升在4个标准差(1.3×4=5.2)左右,中奖率远小于1%,实际上只有万分之0.3左右。

这就是说:在小群体中会观察到更多的极端事件。

你和丁俊晖打台球,肯定有多少局输多少局。但如果采用“小样本”规则,规定每局先进第一个球的算赢。熬上个通宵,你或许也能创造一次奇迹。

THE END
1.均匀分布分布函数演示清华教育在线系列软件https://eol.shzu.edu.cn/meol/common/script/preview/download_preview.jsp?fileid=85414&resid=151226004&lid=10615
2.FluentPBM模型离散方法详解哔哩哔哩系统讲解PBM离散方法、bin设置、边界条件、颗粒现象设置发布者 关注 Dearanwen 博士,研究方向为流体动力学,擅长使用Fluent软件进行多相流,对PBM模型和多相流中颗粒相互作用有深入研究。 课程概述 评论(0) 1. 对PBM模型(Population Balance Model)的详细设置及理论进行了比较深入的讲解 2. 详细讲解了PBM模型分区bin的https://www.bilibili.com/cheese/play/ss34314?search_query=%E7%A6%BB%E6%95%A3%E5%9E%8B%E6%A8%A1%E5%9E%8B
3.离散的均匀分布python离散均匀分布怎么表示离散概率分布,即离散型随机变量的概率分布,与其相对的是连续概率分布。显然,离散往往意味着与自然数密切相关,本文下面介绍几种常见的离散概率分布及其Python运用。 一、离散均匀分布:掷骰子 均匀分布分为离散与连续两种情况,这里介绍离散的情况。离散型均匀分布指有限个数值拥有相同的概率的分布,比如掷骰子。假设实验结果https://blog.51cto.com/u_16213569/8174259
4.熟悉常见概率分布离散均匀分布 特别地,当我们仅仅进行一次多项实验,并且多项的各项结果是等可能的,那么这个时候就得到的就是离散均匀(Discrete Uniform)分布。其概率密度函数如下:\[P(X = x) = \frac{1}{N} \; (x= 1,,N)\]例如,抛掷一枚均匀的骰子,出现 6 个数中任意一个的概率都是 $\frac{1}{6}$。https://baijiahao.baidu.com/s?id=1786580210573566956&wfr=spider&for=pc
5.两种常见的离散概率分布(离散均匀分布及泊松分布)离散均匀分布:n个可能的值,每个值的概率相等,即pi= 1/n,例:掷骰子 a: 最小值 b: 最大值 n: 值的个数= b-a+1 平均数= (a + b)/2 中位数= https://www.jianshu.com/p/f21f1642a9da
6.离散型均匀分布相关工具书解释 ·应用统计方法辞典·统计大辞典 亦称“离散型矩 形分布”。一种格点分布。称随机变 量X有离散型均匀分布,如果其一 切可能值构成有限等差数列,且取 各可能值的概率相等。(本文共107字)阅读全文>> 权威出处:《应用统计方法辞典》 扩展阅读: https://xuewen.cnki.net/R2008060440000554.html
7.离散均匀分布的期望和方差(均值和方差的性质)连续分布期望、方差 预备定义 数学期望 定义 E [ g ( x ) ] = { ∑ i g ( x i ) p ( x i ) , 离散场合 ∫ ? ∞∞ g ( x ) p ( x ) d x , 连续场合 E[g(x)]=\begin{cases}\sum\limits_ig(x_i)p(x_i),&\text{离散场合} \\ \\ \int_{-\infty}^\infty{g(x)p(https://cloud.tencent.com/developer/article/2060685
8.离散型均匀分布学术百科本文研究了随机需求下随机利润的分布类型,给出了随机需求为连续型随机变量时,随机利润为连续型随机变量的充分必要条件,生动而有趣地回答了本文提出的问题。 详情>> 工科数学1994年03期随机利润,连续型随机变量 AI辅助阅读 下载 下载 6.离散型随机变量的一种应用 https://wiki.cnki.com.cn/HotWord/2398289.htm
9.离散型均匀分布&连续型均匀分布discreteuniformdistribution是一种简单的概率分布,其分为离散型均匀分布(discrete uniform distribution)和连续型均匀分布(continuous uniform distribution)两种类型的机率分布。 1.离散型均匀分布(discrete uniform distribution) 在统计学及概率理论中,离散型均匀分布是一个离散型概率分布,其中有限个数值拥有相同的概率。 https://blog.csdn.net/haha0332/article/details/89204966
10.概率分布深度解析:PMFPDF和CDF的技术指南图4:左图显示了离散随机变量(骰子投掷)的 CDF,展示了骰子投掷结果概率的阶梯式累积。右图是连续随机变量(均匀分布)的 CDF,显示了从 0 到 1 的连续均匀分布概率的平滑线性增加。 结论 累积分布函数(CDF)是理解离散和连续设置中概率分布的强大工具。它使我们https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247645553&idx=2&sn=4cef21a798a09d12a84143f8df92ac5c&chksm=e9efb0fade9839ecf40a6647551633c4f900eff198b480606667e4d1cbfc0eb59645128ef6e6&scene=27
11.离散分布均匀分布正态分布偏态分布等的翻译是:Discretea现在我是有空就学习英文,同事们都感觉我怪怪的 Now I am have free time on the study English, the colleagues all feel me strangely[translate] a离散分布、均匀分布、正态分布、偏态分布等 Discrete distribution, uniform distribution, normal distribution, skewness distribution and so on[translate]http://riyu.zaixian-fanyi.com/fan_yi_2922303
12.均匀分布种类.pdf(1)均匀分布类 (矩形分布类)(统一分布类)(Uniform) 分布名称 01.连续均匀分布 (等概分布,一致分布) 02.离散均匀分布(稀疏分布,同致分布) 03. 逆连续均匀分布 04.逆离散均匀分布 数学标记 U(a,b)或 或Unif (a,b ) X Continuous uniform distribution 或CU(a,b) X Inverse discrete uniform 或IU(a,bhttps://max.book118.com/html/2017/0810/126999682.shtm
13.3DMax如何均匀分布3d溜溜设计问答平台为广大设计师们提供各种3DMax如何均匀分布问题解答,3d溜溜素材问答平台汇聚全球各地的设计师、名师名司、设计爱好者等设计灵感和经验,迅速为您解决3DMax如何均匀分布的困惑。https://www.3d66.com/answers_relation/relation_1941382.html