开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2019.02.22
离散型变量的概率分布可以用概率质量函数(probabilitymassfunction,PMF)来描述。我们通常用大写字母P来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数,并且读者必须根据随机变量来推断所使用的PMF,而不是根据函数的名称来推断;例如,P(x)通常和P(y)不一样。
概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。x=x的概率用P(x)来表示,概率为1表示x=x是确定的,概率为0表示x=x是不可能发生的。有时为了使得PMF的使用不相互混淆,我们会明确写出随机变量的名称:P(x=x)。有时我们会先定义一个随机变量,然后用~符号来说明它遵循的分布:x~P(x)。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(jointprobabilitydistribution)。P(x=x,y=y)表示x=x和y=y同时发生的概率。我们也可以简写为P(x,y)。
当我们研究的对象是连续型随机变量时,我们用概率密度函数(probabilitydensityfunction,PDF)而不是概率质量函数来描述它的概率分布。概率密度函数p(x)并没有直接对特定的状态给出概率,相对的,它给出了落在面积为δx的无限小的区域内的概率为:
p(x)δx
我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地,x落在集合S中的概率可以通过p(x)对这个集合求积分来得到。在单变量的例子中,x落在区间[a,b]的概率是:
为了给出一个连续型随机变量的PDF的例子,我们可以考虑实数区间上的均匀分布。我们可以使用函数u(x;a,b),其中a和b是区间的端点且满足b>a。符号“;’’表示‘‘以什么为参数’’.我们把x作为函数的自变量,a和b作为定义函数的参数。为了确保区间外没有概率,我们对所有的x[a,b],令u(x;a,b)=0。在[a,b]内,有:
我们可以看出任何一点都非负。另外,它的积分为1。我们ba通常用x~U(a,b)表示x在[a,b]上是均匀分布的。
有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginalprobabilitydistribution)。
例如,假设有离散型随机变量x和y,并且我们知道P(x,y)。我们可以依据下面的求和法则(sumrule)来计算P(x):
对于连续型变量,我们需要用积分替代求和:
在很多情况下,我们感兴趣的是某个事件在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定x=x,y=y发生的条件概率记为P(y=y|x=x)。这个条件概率可以通过下面的公式计算:
条件概率只在P(x=x)>0时有定义。我们不能计算给定在永远不会发生的事件上的条件概率。
这里需要注意的是,不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语,那么他是德国人的条件概率是非常高的,但是如果随机选择的一个人会说德语,他的国籍不会因此而改变。
条件概率的链式法则:
任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
例如:
函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expectedvalue)是指,当x由P产生,f作用于x时,f(x)的平均值。对于离散型随机变量,这可以通过求和得到:
连续型通过积分得到:
当概率分布在上下文中指明时,我们可以只写出期望作用的随机变量的名称来进行简化,例如Ex[f(x)]。如果期望作用的随机变量也很明确,我们可以完全不写脚标,就像E[f(x)]。默认地,我们假设E[·]表示对方括号内的所有随机变量的值求平均。类似的,当没有歧义时,我们还可以省略方括号。
期望是线性的,例如:
方差(variance)衡量的是当我们对x依据它的概率分布进行采样时,随机变量x的函数值会呈现多大的差异: