概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。
离散概率分布也称为概率质量函数(probabilitymassfunction)。离散概率分布的例子有伯努利分布(Bernoullidistribution)、二项分布(binomialdistribution)、泊松分布(Poissondistribution)和几何分布(geometricdistribution)等。
连续概率分布也称为概率密度函数(probabilitydensityfunction),它们是具有连续取值(例如一条实线上的值)的函数。正态分布(normaldistribution)、指数分布(exponentialdistribution)和β分布(betadistribution)等都属于连续概率分布。
1、两点分布(伯努利分布)
伯努利试验:
伯努利试验是在同样的条件下重复地、各次之间相互独立地进行的一种试验。
即只先进行一次伯努利试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。
最常见的例子为抛硬币
其中,
期望E=p
方差D=p*(1-p)^2+(1-p)*(0-p)^2=p*(1-p)
2、二项分布(n重伯努利分布)(X~B(n,p))
即做n个两点分布的实验
E=np
D=np(1-p)
二项分布的应用场景主要是,对于已知次数n,关心发生k次成功。
对于抛硬币的问题,做100次实验,观察其概率分布函数:
fromscipy.statsimportbinomimportmatplotlibasmplimportmatplotlib.pyplotaspltimportnumpyasnp##设置属性防止中文乱码mpl.rcParams['font.sans-serif']=[u'SimHei']mpl.rcParams['axes.unicode_minus']=False首先导入库函数以及设置对中文的支持
观察概率分布图,可以看到,对于n=100次实验中,有50次成功的概率(正面向上)的概率最大。
3、几何分布(X~GE(p))
在n次伯努利实验中,第k次实验才得到第一次成功的概率分布。其中:P(k)=(1-p)^(k-1)*p
E=1/p推到方法就是利用利用错位相减法然后求lim-k->无穷
D=(1-p)/p^2推到方法利用了D(x)=E(x)^2-E(x^2),其中E(x^2)求解同上
因此,可以看到,对于抛硬币问题,抛个两三次就能成功。
4、泊松分布(X~P(λ))
E=λ
D=λ
假设某地区,一年中发生枪击案的平均次数为2。
因此,一年内的枪击案发生次数的分布如上所示。
与二项分布对比:
5、均匀分布(X~U(a,b))
对于随机变量x的概率密度函数:
则称随机变量X服从区间[a,b]上的均匀分布。
E=0.5(a+b)
D=(b-a)^2/12
均匀分布在自然情况下极为罕见,而人工栽培的有一定株行距的植物群落即是均匀分布。这表明X落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此X落在[a,b]的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。
落在某一点的概率都是相同的
若[x1,x2]是[a,b]的任一子区间,则
P{x1≤x≤x2}=(x2-x1)/(b-a)
这表明X落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关。
6、指数分布X~E(λ)
E=1/λ
D=1/λ^2
指数分布的特性:无记忆性
这个证明过程简单表示:
P(s+t|s)=P(s+t,s)/P(s)=F(s+t)/F(s)=P(t)
7、正态分布(X~N(μ,σ^2))
E=μ
D=σ^2
正态分布是比较常见的,譬如学生考试成绩的人数分布等
补充:
大数定理:
随着样本的增加,样本的平均数将接近于总体的平均数,故推断中,一般会使用样本平均数估计总体平均数。
大数定律讲的是样本均值收敛到总体均值
中心极限定理:
独立同分布的事件,具有相同的期望和方差,则事件服从中心极限定理。他表示了对于抽取样本,n足够大的时候,样本分布符合x~N(μ,σ^2)
中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布