生成学习算法wallacevv

这节主要介绍了生成学习算法。首先与逻辑回归分类算法进行比较,引出生成学习算法的核心思想,然后介绍了一种基本的生成学习算法——高斯判别分析,并进一步对高斯分布条件进行讨论,比较生成学习算法与判别学习算法的区别,最后介绍了两种适合文本分类的朴素贝叶斯方法,并由引入新数据时产生的问题介绍拉普拉斯平滑法。

基本思路是:

一、生成学习算法

判别学习算法,计算条件概率p(y|x;θ),直接学习从特征X到标签y∈{0,1}的映射。如逻辑回归,寻找一条直线(决策边界)将两类数据集分开,新数据落入哪边就属于哪类。

生成学习算法,计算联合概率p(x,y),或者理解为对p(x|y)和p(y)同时进行建模。对不同类别的数据集分别进行建模,看新输入的数据更符合哪类模型,该数据就属于哪类。

Case,对动物进行分类,y=1表示是大象,y=0表示是小狗,p(x|y=1)是对大象特征建模后的分布,p(x|y=0)是对小狗特征建模后的分布。

结合贝叶斯公式,可以由先验概率p(x|y)和p(y)求出后验概率p(y|x)。

其中,p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0).

二、高斯判别分析

1.多元正态分布(multivariatenormaldistribution)

(1)定义:

n维的多元正态分布(多元高斯分布),由参数均值向量μ∈Rn和协方差矩阵Σ∈R(nXn)确定,记作N(μ,Σ),它的概率密度公式为:

其中,|Σ|为Σ的行列式。

对于随机变量X~N(μ,Σ),它的期望为多元正态分布的均值μ,协方差为其协方差矩阵Σ。

(2)参数:

(a)Σ=I(b)Σ=0.6I(c)Σ=2I

(a)中协方差为一个2维的单位矩阵,均值为0,也被叫做标准正态分布。当Σ变大时,高斯分布会变得更加拓展(c);当Σ变小时,高斯分布变得更加压缩(b)。

以上三图,均值为0,协方差矩阵Σ分别为:

当增加协方差矩阵斜对角线的值,分布沿着45度角的方向压缩,随着它的值增加,压缩得越多。当协方差矩阵斜对角线值减小为负时,分布沿着45度的反方向压缩。

当固定协方差的值,随着均值μ的变化,可以看出,分布的位置随之而变化。

2.高斯判别分析建模

假设输入x为连续值的随机变量,且满足多元正态分布。

于是,可以得到p(x|y)的表达式。

模型的参数为Φ,μ1,μ2,Σ,它的对数似然函数为,这里所求的是联合概率。

最大化对数似然函数,可得各个参数的估计值:

对实际例子进行建模后的等高图如下,两类样本集拥有相同的协方差Σ,故它们的形状是完全相同的,而均值μ不同,所以位置是不同的。图中的直线表示的是p(y=1|x)=0.5的决策边界。

3.比较GDA和逻辑回归

(1)引例

由于

特别地,当p(y)是均值分布,即p(y)对于不同的y值取值都相同,可以继续简写为argmaxp(x|y)。也就是说,最终问题可以简化为求p(x|y)。

现在讨论两个一维正态分布的GDA问题,求取p(y=1|x),即为求p(x|y=1)和p(x|y=0)。

观察p(y=1|x),它其实是一个关于x的函数,形状类似Sigmoid函数,可以表示为:

其中,θ是关于Φ,μ1,μ2,Σ的函数。

(2)比较

那么,GDA和逻辑回归哪种分类模型更好呢?

由GDA模型的推导过程可知,当p(x|y)是多元正态分布时,可以推到出p(y|x)满足逻辑函数,而反之不成立。这说明GDA比逻辑回归做了更强的模型假设。

其实,还有很多其他分布条件满足时,可以推导出p(y|x)满足逻辑函数的结论。例如,x|y服从泊松分布:x|y=1~Poisson(λ1),x|y=0~Poisson(λ0),则p(y|x)也是逻辑函数。推广之,x|y=1~ExpFamily(λ1),x|y=0~ExpFamily(λ0),则p(y|x)也是逻辑函数。当把GDA应用在不服从高斯分布却又能推导出逻辑函数的条件下,效果也并不好。

总之,当高斯分布成立或大概成立,模型假设的条件性更强,那么GDA将优于逻辑回归,GDA是渐进有效的(asymptoticallyefficient)。当若相反的并不知道是否成立时,假设性更弱,逻辑回归会更好,具有更强的鲁棒性。事实上,当未知训练集是否服从高斯分布,且在规模有限时,逻辑回归的表现往往要好于GDA。因此,逻辑回归比GDA要常用。

三、朴素贝叶斯

GDA针对的是连续变量,现在要来说一个针对离散变量的分类模型:朴素贝叶斯。

(1)多元伯努利事件模型(multi-variateBernoullieventmodel)

引例,垃圾邮件分类

特征向量x,当邮件中含有词典中的第i个词,则设置xi=1,反之则为xi=0.例如,

假设xi是条件独立的(朴素贝叶斯假设),有50000个词。现在要建立一个生成学习算法,就要计算p(x|y),于是有:

模型参数:

联合似然函数为:

极大似然函数的参数估计为:

预测一个新的输入x:

总之,假设xi∈{0,1},y=词典中词的个数,求p(x|y)和p(y)来求后验概率p(y|x)最大。这种模型也叫做多元伯努利事件模型。

针对文本分类,还有另外一种更为有效的模型。

(2)多项式事件模型(multinomialeventmodel)

多元伯努利事件模型中的特征向量缺少某些信息,如不同的词语在邮件中出现的次数。

假设ni=邮件中词的总个数,xj∈{1,2,...,50000},表示对应邮件中第j个位置出现的词,也就是指向词典的索引。

一个邮件的联合概率分布为:

参数为:

Φk|y=1表示的是在垃圾邮件中词k所占比例。

对数似然性为:

由于考虑了一个文档中词出现的次数,故文本分类效果比第一种朴素贝叶斯的事件模型要好。

(3)存在的问题:

假设有一个未在之前的词典中出现过的新词,它的位置在35000,则参数估计为:

则后验概率为:

最终得到的是一个不定式,也就是说此时模型无法判断这个新词的分类。为了解决这种问题,引入拉普拉斯平滑。

四、拉普拉斯平滑

朴素贝叶斯的问题出在,Φ的有些极大似然估计值可能取值为0,归根结底,是Φj的分子可能为0导致的。

拉普拉斯平滑就是通过增加一些修正因子,分子增加1,分母增加k来优化。

THE END
1.生成式AI:创造性智能的新纪元什么是生成式AI? 生成式AI是一种利用机器学习算法,特别是深度学习技术,来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似,但又是独一无二的。这种技术的核心在于能够捕捉到数据的分布特征,并在此基础上创造出新的实例。 主要技术 生成对抗网络(GANs):由生成器和判别器组成,生成器产生数据,判别器https://blog.csdn.net/qq_56438516/article/details/141832237
2.生成式深度学习神经网络深度神经网络算法生成式深度学习神经网络 深度神经网络算法 Writed by changfei_lovelife~ 目录 1.卷积神经网络 2.深层卷积网络实例探究 第一部分 卷积神经网络 1.边缘检测器 原理:利用过滤器,与原图矩阵进行卷积计算,可实现垂直/水平边缘检测。 卷积运算:逐元素相乘,然后相加https://blog.51cto.com/u_13259/10358004
3.4机器学习算法面试八股【4】机器学习算法面试八股 51随机森林RF 通过对训练数据样本以及属性进行有放回的抽样(针对某一个属性随机选择样本)这里有两种,一种是每次都是有放回的采样,有些样本是重复的,组成和原始数据集样本个数一样的数据集;另外一种是不放回的抽样,抽取出大约60%的训练信息。由此生成一颗CART树,剩下的样本信息作为袋https://www.nowcoder.com/discuss/509759767431098368
4.python机器学习笔记:深入学习决策树算法原理1. 决策树学习算法主要由三部分构成 1.1 特征选择 特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。 1.2 决策树生成 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来https://www.flyai.com/article/622
5.博弈环境下的深度强化学习和传统的深度强化学习不同博弈环境下的深度学习需要通过与其他智能体或环境进行交互来生成数据。相比之下,传统的深度学习通常使用已标注的静态数据集进行训练。 2、增强学习算法 博弈环境下的深度学习通常使用增强学习算法来训练智能体。增强学习是一种通过与环境交互学习最优策略的方法。传统的深度学习通常使用监督学习算法。 https://wap.sciencenet.cn/home.php?mod=space&uid=40841&do=blog&id=1418525
6.基于机器学习的深基坑三维土层重建提出一种基于机器学习的土层重建方法,首先设计土层生成算法来进行土层训练数据集的数据增强。然后根据钻孔信息数据结构设计了预测模型特征编码方法,作为预测模型的标准输入,通过搭建卷积神经网络模型,对土层结构进行特征提取,形成土层预测模型。随后,利用预测模型对待预测地块中的离散格点进行土层属性预测,获得土层体数据。最后http://qks.cqu.edu.cn/html/cqdxzrcn/2021/5/20210515.htm
7.《自然》封面:人工智能掀起材料革命,将颠覆人类科研方式能见度但有一批材料科学家转换思路,使用计算机模型和机器学习算法生成海量假想的材料,建立数据库,从中筛选出值得合成的材料,再通过检索这些材料可能拥有的性质进行具体应用测试,比如将这种材料用作导体表现如何、用作绝缘体性能又如何、这种材料是否具有磁性、那种材料的抗压力是多少。https://www.thepaper.cn/newsDetail_forward_1466136
8.强化学习GAIL生成对抗模仿学习详解《Generativeadversarial( c , π ) (c,\pi) (c,π)为一个鞍点。 可得,不同的正则化函数 ψ \psi ψ构成不同的模仿学习算法,可以直接求解上式得到 ( c , π ) (c,\pi) (c,π)。 在本文中将会主要介绍三种不同的正则化函数:恒定正则化函数,示性正则化函数,生成对抗正则化函数(GA) https://cloud.tencent.com/developer/article/2152022
9.交换机如何实现自学习算法帧交换表的实现是通过自学习算法,自学习算法是在网络中主机间不断的通信中逐渐建立起来的。 自学习算法最重要的两点 1)主机发送出帧后交换机便将该MAC地址以及接口登记; 2)一个接口成功接收到帧,变将该接口和MAC地址登记 冗余环路可以提高以太网的可靠性,但是会造成网络环路,可以通过创建最小生成树的创建来避免网https://www.jianshu.com/p/ed03cf24b9b1