机器学习总结(基础):信息论概率

本系列我们将总结机器学习基础并研究主要的机器学习(ML)算法。我们假设您对机器学习(ML)有了基本的接触,我们可能会跳过或仅仅简要介绍某些概念。

香农信息量(informationcontent)是事件x发生时的信息增益量。在数学上,它被定义为

如果一枚硬币是有偏差的,并且总是正面朝上,那么事件是可以预测的,信息量为零。如果硬币是均匀的,那么概率分布是均匀的,到底发生了什么是最不可预测的,信息量最高。

在计算机科学中,我们把信息量看作是利用事件频率以最有效的编码方案编码信息的比特数。对于均匀硬币,正面编码方案为0b0,反面编码方案为0b1。为了便于讨论,log以2为底。抛一枚均匀硬币的正面或反面的信息内容为-log()=1。当我们抛硬币一次时,我们得到了1位的信息。

如果X的值是随机过程的结果,例如掷骰子时的数字,则X称为随机变量。我们可以模拟从分布p(X)生成的X的值。根据中心极限定理,我们可以用高斯模型对X进行建模。

熵H测量随机变量的预期信息——事件的期望信息量是多少。因此,我们以等于事件频率(概率)的权重来总结所有信息量。

例如,在抛均匀硬币时,P(X=head)=1/2,P(X=tail)=1/2。它的熵等于

因此,我们只需要一位来编码每个事件。

交叉熵

交叉熵H(P,Q)通过一种针对分布Q的编码方案,测量用分布P编码X的期望比特数。

在机器学习(ML)中,我们希望我们的预测Q与groundtruth值P匹配。我们将使用交叉熵作为我们的训练目标,以最小化groundtruth值标签与我们的预测之间的差异。

该训练数据点的交叉熵计算结果为

许多分类问题的成本函数很简单

KL-散度

kl散度测量两个分布P和Q的差异。

KL-发散总是大于或等于零。

交叉熵、熵与KL散度的关系为:

由于熵不随模型参数而变化,因此优化KL散度与优化交叉熵相同。因此,在训练模型时,既可以优化交叉熵,也可以优化kl-散度。

kl散度有几个点需要注意

KL(q,p)叫做逆KL散度。kl散度的非对称性具有非常重要的意义。例如,假设groundtruthP是一个双峰分布(下面的蓝色曲线),我们想用singlemode高斯分布(红色曲线)对其建模。如果使用KL散度KL(p,q)作为训练目标函数,我们将得到(a)中的高斯分布,该高斯分布覆盖了groundtruthp的两种模态,并且在两种模态之间的波谷处有一个峰值。如果使用逆KL-散度KL(q,p),我们将得到(b)或(c)中的一个局部最优。

对于KL(p,q),如果p(x)不为零,我们希望q(x)不为零。否则,如果q(x)很小,则KL值将很高。对于KL(q,p),如果P(x)为零,我们也希望Q(x)也为零。

可能更容易看到2D空间的差异。逆KL仅覆盖双峰groundtruth实例中的一种模态,但Q的峰值将接近该模态之一的峰值。

问题的根源是,我们使用的是一个简单的模型,用于更复杂的groundtruth。在一些问题领域,我们可能没有这个问题,因为两个模型都很接近。

条件熵

条件熵H(Y|X)是所有可能的X条件下Y的加权熵。计算公式为:

信息增益

互信息(或信息增益)I(X;Y)是当观察到Y时在随机变量X上获得的信息。下面的数学定义并不直观。

用熵可以更好地理解它

直觉上,互信息通过了解X来衡量我们获得了多少信息?如果知道Y给出了关于X的所有信息,则条件熵H(X|Y)为零,因为不再需要关于X的信息。互信息I变为H(X)(或H(Y))。另一方面,如果知道Y不给我们关于X的信息,则条件熵是H(X)并且互信息是零。

例如,如果我们知道对象的标签(Y),我们就会获得有关其原始图像(X)的大量信息。我们不应该把它的图片误认为是其他对象。因此,信息增益I(X;Y)很高。让我们用集合来形象化。互信息是它的重叠。

概率质量函数是离散变量的概率分布。例如,

概率密度函数(PDF)是具有小写符号p(x)的连续变量的概率分布。我们可以通过在这个范围内对它进行积分来计算两个值之间的概率。

累积分布函数(CDF):CDF计算累积概率p(X≤x)。

条件概率

独立性:如果两个随机变量A和B是独立的

边际概率:边际概率P(X)通过将联合概率与其他变量相加(或积分)来计算。

在许多机器学习(ML)问题中,我们为所有变量建立联合分布模型。一旦建模,我们可以通过对其余变量求和或积分来推断单个或一个变量子集(p(x1)或p(x1,x2,x3))的概率。

链式法则

贝叶斯定理

该等式看起来很简单,但它是机器学习(ML)中最重要的等式之一。

贝叶斯定理可以用不同的形式表示。

假设有一种遗传性疾病,只有0.1%的人患病。我们开发了一个测试,其正面和负面结果的准确率为99%。所以,如果你测试为阳性,你是否应该担心呢?直觉会说是,但实际上,贝叶斯定理证明你只有9%的几率得到这种疾病(证明)。

概率模型和非概率模型

通常,模型可以分类为概率模型和非概率模型。概率模型使用概率分布来模拟问题并进行预测。这些模型通常建立在MLE(最大似然估计)或MAP(最大后验估计)上。例如,在训练线性回归模型时,我们优化其参数w以最大化观察数据的可能性。非概率模型不使用分布来对它们进行建模。他们的一些例子包括聚类,SVM,决策树等......

贝叶斯推断与点估计

在贝叶斯定理中,我们感兴趣的是估计p(y|x)的分布。在给定观察到的变量x的情况下,贝叶斯推断可被视为推断未观察到的变量,如潜在因子,标签或模型参数θ。这不是点估计。我们估计一个概率曲线,给出了相应可能性的所有可能性。例如,我们不知道杂工的平均收费率(一个点估算),而是回答有关可能的费率问题。

在线性回归推理中,我们基于输入特征预测确定值(点估计)。例如,房屋的价格可以从平方英尺和房间数量计算(价格=a×平方英尺+b×房间数+c)。

在贝叶斯定理中,先验和可能性都是概率密度函数(PDF)。计算出的后验是PDF。利用贝叶斯定理,我们预测了一个值的分布以及这些值的确定性。与点估计相比,概率模型能更好地解释现实世界中的不确定性。

贝叶斯定理的优缺点

在一些机器学习(ML)问题中,建模P(y|x1,x2,x3,...)可能很难。如后面NaiveBayes定理所示,对于某些问题域,这个概率可以进一步分解为独立分量(P(x1|y)P(x2|y))...)。这使得建模和解决变得极其容易。此外,在早期实验阶段,由于我们还没有收集到足够的样本,证据很薄弱。但如果我们有一个坚实的先验信念,我们可以使用贝叶斯定理将新证据与信念结合起来。现在不要担心细节。

我们现在正在研究曲线而不是单点估计。一般来说,计算后验并不容易,即使方程看起来很简单。

疾病例子中的计算非常简单,因为状态数很小。然而,在高维空间或连续空间中,将先验和似然曲线相乘通常是难以处理的。

计算积分可能更难。我们需要推断一个联合概率并将其整合到y上。在许多问题中,x和/或y由许多变量组成(x=(x1,x2,x3,...))。指数复杂度的诅咒很快就形成了。

在我们的机器学习系列中讨论的大部分机器学习(ML)算法都致力于简化或近似后验。例如,我们可以用高斯分布对先验和似然进行建模。后验分布为高斯分布,易于分析计算。

在ML中,模型训练也可以表示为贝叶斯推理中的后验

其中w是模型参数。分母中的边际概率总和超过w,不再是w的函数。因此,它不会改变。为了找到最优模型,我们可以忽略边际概率。通常,我们会在不评估边际概率的情况下找到最优解。

朴素贝叶斯定理

朴素贝叶斯定理通过探索变量的独立性来解决分类问题。如前所述,当P(x|y)更容易建模时,贝叶斯定理帮助我们求解P(y|x),即我们通过P(x,x,x,…|y)计算P(y|x1,x2,x3,...),。但是,联合条件概率P(x1,x2,x3,...|y)通常仍然过于复杂。x1,x2,...,xn的指数组合使得收集数据以进行估计变得非常困难。

但是我们可以假设x1,x2,x3,...和xn彼此独立,将P(x1,x2,...|y)简化为P(x1|y)P(x2|y)...P(xn|y)..,因此,P(y|x)可以计算为

在ML中,利用独立性P(A,B)=P(A)P(B)或条件独立性P(A,B|C)=P(A|C)P(B|C)是避免指数复杂度和使问题易于处理的重要步骤。即使朴素贝叶斯算法中的变量相互独立通常是错误的,但从经验上看,这仍然是解决问题的有效简化。

让我们使用朴素贝叶斯定理来检测垃圾邮件。我们知道垃圾邮件可能经常使用哪些字词(例如“money”)。我们将P(x1,x2,...|y)简化为独立分量P(x1|y)P(x2|y)的乘法...我们使用贝叶斯定理来枚举是否是垃圾邮件,并选择下面计算值最高的分类。

在这个例子中,我们忽略了电子邮件中单词的频率。但是单词的频率是垃圾邮件的一个很好的指标。例如,“money”一词在垃圾邮件中出现的频率可能会更高。为了模拟它,我们可以使用泊松分布P(x|垃圾邮件),其中x代表一个特定的词。给定一个特定的词,对于垃圾邮件或非垃圾邮件,我们使用具有不同λ的泊松分布来相应地模拟这种字数的概率。

THE END
1.风险边际是什么意思?投资决策中的风险管理策略有哪些?在投资领域,风险边际是一个关键概念。它指的是为应对不确定性和潜在风险而预留的额外缓冲或余地。简单来说,风险边际就是在预期收益的基础上,为可能出现的不利情况所准备的一种保障。 风险边际并非一个固定的数值,而是根据不同的投资项目、市场环境和投资者的风险承受能力而有所变化。例如,在一个较为稳定的市场中https://funds.hexun.com/2024-12-16/216202339.html
2.边际概率学术百科提供全面的“边际概率”相关文献(论文)下载,论文摘要免费查询,边际概率论文全文下载提供PDF格式文件。边际概率中文、英文词汇释义(解释),“边际概率”各类研究资料、调研报告等。https://wiki.cnki.com.cn/HotWord/872465.htm
3.边际概率英文怎么写边际概率英语怎么说边际概率 marginal probability相关短语 marginal amplifier 边频放大器 marginal area 边缘地区 marginal credit 边际信贷,限界信贷 marginal definition 边缘清晰度 marginal demand 边际需求 marginal discharge 边缘放电,尖端放电 marginal efficiency 边际效率 marginal erosion 边缘糜烂 marginal error 边缘错误,边缘误差,镜边http://m.hujiang.com/ciku/w_693349_1142500279/
4.边际概率的英文边际概率翻译边际概率英语怎么说海词词典,最权威的学习词典,专业出版边际概率的英文,边际概率翻译,边际概率英语怎么说等详细讲解。海词词典:学习变容易,记忆很深刻。http://dict.cn/%E8%BE%B9%E9%99%85%E6%A6%82%E7%8E%87
5.联合概率边际概率条件概率一时忘了联合概率、边际概率、条件概率是怎么回事,回头看看。 某离散分布: 联合概率、边际概率、条件概率的关系: 其中, Pr(X=x, Y=y)为“XY的联合概率”; Pr(X=x)为“X的边际概率”; Pr(X=x | Y=y)为“X基于Y的条件概率”; Pr(Y=y)为“Y的边际概率”; https://blog.csdn.net/libing_zeng/article/details/74625849
6.什么叫边际概率什么叫边际概率 扫码下载作业帮搜索答疑一搜即得 答案解析 查看更多优质解析 解答一 举报 边际分布,边际密度边际概率就是边际分布 解析看不懂?免费查看同类题视频解析查看解答 相似问题 边际成本的边际是什么意思? 边际效应指的是什么? 什么叫劳动边际产量? 特别推荐 热点考点 2022年高考真题试卷汇总 2022年高中期https://www.zybang.com/question/a38667916db03aff49500dd246fa3b4e.html
7.什么叫边际概率百度试题 结果1 题目什么叫边际概率 相关知识点: 试题来源: 解析 边际分布,边际密度边际概率就是边际分布 反馈 收藏 https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1711396983031281492&fr=search
8.边际概率计算(边际效果)在probit模型的结果中,知道了自变量x在1%下显著,系数为a,x的样本均值为b,现在要求x对因变量y的边际效果,即边际概率,怎么求啊? 李涛.参与惯性与投资选择[J].经济研究,2007(8)中提到传统的边际效果计算方法是首先计算出所有样本的均值,而后在此均值处求出边际效果,但是这个边际效果具体怎么求呢? https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_978269_1.html
9.一个列子理解联合概率边际概率条件概率理解联合概率、边际概率与条件概率从列联表开始。 列联表是常见的用于描述类别变量间关系的形式。 2X2列联表 上面是一个2X2的列联表,存在两个变量,如果存在多个二分变量,任意两个变量便可组成一个2X2的列联表。多个变量之间可以组成多重列联表。列联表涉及三种类型的概率分布:联合概率(Joint Probability),边际https://www.jianshu.com/p/2c326fffd898
10.边际概率,marginalprobability,音标,读音,翻译,英文例句,英语词典边际概念5) marginal olistribution 边界概率 例句>> 6) marginal probability 边缘概率 1. The marginal probability method is also introduced into the comprehensive analysis on the secondary plays in each play. 以油气成藏组合理论为指导,结合塔里木盆地志留系勘探实践,将志留系下砂岩段划分为塔中、塔东、http://dictall.com/indu45/40/4540595AB82.htm
11.条件概率定义知识库边际概率 :事件发生的概率(p(A)),可以认为是无条件概率。它不受另一事件的限制。例如:抽卡的概率为红色(p(red)=0.5)。另一示例:抽卡的概率为4(p(four)=1/13)。 联合概率:p(A和B)。事件A的概率;和 &事件B发生。它是两个或多个事件相交的概率。A和B相交的概率可以写成p(A∩B)。例如:一张牌是4https://www.wenjiangs.com/wiki/Xsdyunvwkp
12.概率论3.2.1边际分布函数3.2.1边际分布函数 概率论是研究随机现象客观规律并付诸应用的数学学科,是统计学专业的学科基础必修课程,是学习统计专业课程的基础。本课程介绍了随机事件及概率、随机变量及其分布、数字特征以及大数定律和中心极限定理。通过本课程的学习,使学生系统的学习概率论的基础https://open.163.com/newview/movie/free?pid=WGVD5PL7B&mid=LGVD5QMUV
13.应该是指的边际违约概率是吗?如果用有问必答marginal PD指的是单看某一年得违约情况,即这年违约的债券个数/期初的债券个数,它不受到前几年的https://www.pzacademy.com/qa/141057
14.《概率论》与《数理统计》第19讲二元连续型随机变量,联合概率密度 第20讲二元连续型随机变量边际概率密度 第21讲二元连续型随机变量条件概率密度 第22讲二元均匀分布,二元正态分布 第23讲随机变量的独立性 第24讲二元随机变量函数的分布 第25讲Z=X+Y的分布 第26讲max(X,Y)和min(X,Y)的分布 https://sxxy.bjwlxy.cn/info/1279/3068.htm
15.注意!6月30日将有重大变化美联储已经动手央行释放信号货币存在边际收紧概率 数据显示,6月17日,美联储的资产负债表从一周前的7.22万亿美元降至7.14万亿美元,其中包括从美国国债和抵押支持证券到银行和州政府贷款的资产。这是美联储(Fed)的资产自2月以来首次缩水。具体反映在与外国央行的货币互换急剧下降,对其他紧急信贷工具的需求持续疲软。 https://finance.eastmoney.com/a/202006221529082942.html
16.非线性模型中乘数和边际交互效应选哪个?为什么呢?51CTO博客不难得出,概率度量下,乘数交互效应为0.95,即x上升时,z的效应下降。相反,优势比例度量下,乘数效应为1.0,即x上升时,z的效应不变。然而,概率度量下的边际效应为0.04,表明x上升时,z的效应上升。这个例子中,优势比例度量下的边际效应也是上升的,但其他例子中,它也可以和概率度量下的边际效应有显著差异。上述结果如下https://blog.51cto.com/u_15057855/2676224
17.如何计算边际违约率(如何计算边际违约率)边际违约率(Marginal Default Rate, MDR)是衡量金融产品或组合中新增单位风险暴露可能导致的违约概率的一个指标。在金融风险管理和信贷组合分析中,它是一个重要的工具,可以帮助投资者和决策者更好地理解和管理信用风险。 一、理解边际违约率的概念 边际违约率是指在原有风险暴露基础上,每增加一单位的风险暴露所增加的https://www.zaixianjisuan.com/jisuanzixun/ruhejisuanbianjiweiyuelv.html