监督半监督无监督自监督学习方法之间的区别

监督、半监督、无监督、自监督学习方法之间的区别

很容易找到海量的无类标签的样例,但需要使用特殊设备或经过昂贵且用时非常长的实验过程进行人工标记才能得到有类标签的样本,由此产生了极少量的有类标签的样本和过剩的无类标签的样例。

因此,人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了半监督学习(Semi-supervisedLearning),如如图1所示。半监督学习(Semi-supervisedLearning)避免了数据和资源的浪费,同时解决了监督学习(SupervisedLearning)的模型泛化能力不强和无监督学习(Unsupervisedlearning)的模型不精确等问题。

同时,收集数据很容易,但是收集到有标签的数据代价很昂贵,从人类的学习认知模式进行类比,可能半监督学习(Semi-supervisedLearning)是一种更加科学的学习方法。

(1)平滑假设(SmoothnessAssumption):位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同。

(2)聚类假设(ClusterAssumption):当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签。这个假设的等价定义为低密度分离假设(LowSensitySeparationAssumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例分到决策边界两侧。

聚类假设是指样本数据间的距离相互比较近时,则他们拥有相同的类别。根据该假设,分类边界就必须尽可能地通过数据较为稀疏的地方,以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下,学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据分布情况,从而指导学习算法对分类边界进行调整,使其尽量通过样本数据布局比较稀疏的区域。例如,Joachims提出的转导支持向量机算法,在训练过程中,算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记,使得分类边界在所有训练数据上最大化间隔,从而能够获得一个通过数据相对稀疏的区域,又尽可能正确划分所有有标记的样本数据的分类超平面。

(3)流形假设(ManifoldAssumption):将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。

(1)半监督分类(Semi-SupervisedClassification)

在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签yi取有限离散值yi∈{c1,c2,···,cc},cj∈N。

(2)半监督回归(Semi-SupervisedRegression)

在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出yi取连续值yi∈R。

(3)半监督聚类(Semi-SupervisedClustering)

在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度。

(4)半监督降维(Semi-SupervisedDimensionalityReduction)

在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-WiseConstraints)的结构不变,即在高维空间中满足正约束(Must-LinkConstraints)的样例在低维空间中相距很近,在高维空间中满足负约束(Cannot-LinkConstraints)的样例在低维空间中距离很远。

1.简单自训练(simpleself-training):用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签(pseudolabel)或软标签(softlabel),挑选你认为分类正确的无标签样本(此处应该有一个挑选准则),把选出来的无标签样本用来训练分类器。

2.协同训练(co-training):其实也是self-training的一种,但其思想是好的。假设每个数据可以从不同的角度(view)进行分类,不同角度可以训练出不同的分类器,然后用这些从不同角度训练出来的分类器对无标签样本进行分类,再选出认为可信的无标签样本加入训练集中。由于这些分类器从不同角度训练出来的,可以形成一种互补,而提高分类精度;就如同从不同角度可以更好地理解事物一样。

3.半监督字典学习:其实也是self-training的一种,先是用有标签数据作为字典,对无标签数据进行分类,挑选出你认为分类正确的无标签样本,加入字典中(此时的字典就变成了半监督字典了)

4.标签传播算法(LabelPropagationAlgorithm):是一种基于图的半监督算法,通过构造图结构(数据点为顶点,点之间的相似性为边)来寻找训练数据中有标签数据和无标签数据的关系。是的,只是训练数据中,这是一种直推式的半监督算法,即只对训练集中的无标签数据进行分类,这其实感觉很像一个有监督分类算法…,但其实并不是,因为其标签传播的过程,会流经无标签数据,即有些无标签数据的标签的信息,是从另一些无标签数据中流过来的,这就用到了无标签数据之间的联系

5.半监督支持向量机:监督支持向量机是利用了结构风险最小化来分类的,半监督支持向量机还用上了无标签数据的空间分布信息,即决策超平面应该与无标签数据的分布一致(应该经过无标签数据密度低的地方)(这其实是一种假设,不满足的话这种无标签数据的空间分布信息会误导决策超平面,导致性能比只用有标签数据时还差)

最初在有监督学习的背景下,所有人考虑的是如何改变网络结构可以使检测结果更加准确,因此产生了一些列的基础网络如:Lenet,Alexnet,vgg,resnet等等。之后考虑到半监督学习的任务目标,需要改变除了网络结构模型之外的数据处理架构(数据增强等任务),构造新的损失函数,网络模型外的整体架构等方面,在保持原有网络模型不变的基础上充分利用labeldata和unlabeldata使最终的性能尽可能贴近有监督学习的性能指标

使用监督学习时我们需要足够的标记数据。为了获得这些信息,需要手工标记数据(图像/文本),这是一个既耗时又昂贵的过程。还有一些领域,比如医疗领域,获取足够的数据本身就是一个挑战。而在使用无监督学习的时候,例如自编码器,仅仅是做了维度的降低而已,并没有包含更多的语义特征,对下游任务并没有很大的帮助。

因此我们想要在不需要手工标记数据的情况下,训练过程还能对任务本身有很大的帮助,可以包含更多的语义特征,自监督学习因此被提出。

评测自监督学习的能力,主要是通过Pretrain-Fintune的模式。我们首先回顾下监督学习中的Pretrain-Finetune流程:我们首先从大量的有标签数据上进行训练,得到预训练的模型,然后对于新的下游任务(Downstreamtask),我们将学习到的参数进行迁移,在新的有标签任务上进行「微调」,从而得到一个能适应新任务的网络。而自监督的Pretrain-Finetune流程:首先从大量的无标签数据中通过pretrain来训练网络,得到预训练的模型,然后对于新的下游任务,和监督学习一样,迁移学习到的参数后微调即可。所以自监督学习的能力主要由下游任务的性能来体现。

THE END
1.人工智能技术基础系列之:无监督学习算法AI实战无监督学习通常被应用于以下三个领域: 数据聚类:无监督学习可以用来发现数据中隐藏的结构和模式。例如,给定一组照片,无监督学习算法可以将它们分成若干个主题(如人脸、自拍照、地点),每个主题下又https://download.csdn.net/blog/column/12277289/133971329
2.机器学习(二)之无监督学习:数据变换聚类分析无监督学习算法只有输入数据,而没有已知的输出标签(label),我们需要从这些数据中学习到信息。常见的无监督学习包括数据集变换和聚类。 数据集的无监督变换(unsupervised transformation)是创建数据新的表示的算法,与数据的原始表示相比,新的表示可能更容易被人或其他机器学习算法所理解。无监督变换的一个常见应用是降维(https://www.flyai.com/article/516
3.下列属于无监督学习算法的是()证券投资顾问考试题库下列属于无监督学习算法的是()。 A 、策树决 B 、聚类 C 、支持向量机 D 、朴素贝叶斯 扫码下载亿题库 精准题库快速提分 参考答案 【正确答案:B】 无监督学习常见算法如聚类。https://www.bkw.cn/tiku/GPqe5.html
4.无监督深度学习经典算法无监督算法举例2,无监督:通常被称为无监督学习(Unsupervised Learning),通常用于在拥有的数据集没有被标记,也没有确定的结果的情况下对数据进行分类。无监督学习一般根据样本间的相似性对样本集进行分类,试图使类内差距最小化,类间差距最大化。常用的无监督学习方法有EM算法,K-MEANS聚类,稀疏自编码,限制波尔兹曼机等 https://blog.51cto.com/u_16099252/9423357
5.第十四章无监督学习14.1 无监督学习 聚类算法(非监督学习算法)。我们将要让计算机学习无标签数据,而不是此前的标签数据。 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们https://www.jianshu.com/p/8c91fd177c00
6.机器学习:什么是无监督学习(UnsupervisedLearning)?上一片文章我们了解了监督学习,监督学习是一种目的明确的训练方式,通过已知因素和已知的结果,通过机器训练,是机器能学会通过已知因素得到未知的结果。而无监督学习是通过给未知的数据,进行分类,也许你就会问了,我都不知道有什么规律,我怎么区分类呢?这就是用到算法模型了。 https://cloud.tencent.com/developer/article/1804152
7.机器学习中的有监督和无监督都包括些什么?机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测数字答案,例如下个月在曼哈顿商店出售的小部件的数量)。 https://www.cda.cn/view/27593.html
8.头条文章跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设, 将样本分类。常见的无监督学习算法包括:稀疏自编码(Sparse Auto Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means 算法(K 均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applicationshttps://card.weibo.com/article/m/show/id/2309404598738399395890
9.科学网—[转载]最实用的机器学习算法优缺点分析,没有比这篇说得更分类是一种用于分类变量建模及预测的监督学习算法,使用案例包括员工流失、邮件过滤、金融欺诈等的预测。 正如你所见,许多回归算法都有其对应的分类形式,分类算法往往适用于类别(或其可能性)的预测,而非数值。 逻辑回归 2.1 (正则化)逻辑回归 逻辑回归是线性回归所对应的分类方法,基本概念由线性回归推导而出。逻辑回归https://blog.sciencenet.cn/blog-1396960-1170780.html
10.无监督神经网络:算法与应用无监督学习算法:无监督学习算法是一种基于深度学习的无监督学习方法,它可以利用神经网络的学习能力和非线性映射能力来从原始数据中自动提取特征。无监督学习算法的典型代表包括堆叠式自编码器(stacked autoencoder)和生成对抗网络(generative adversarial network,GAN)。 其他无监督神经网络算法:除了无监督感知算法和无监督学https://developer.baidu.com/article/detail.html?id=2157019
11.MachineLearning系列一文带你详解什么是无监督学习与监督学习不同,无监督学习不需要事先标记好的训练数据,而是通过对数据的自动处理和聚类来进行学习。无监督学习可以分为两类问题:聚类和降维。聚类问题是将数据分成不同的组或簇,使得同一组内的数据相似度高,不同组之间的相似度低。降维问题是将高维数据映射到低维空间,以减少特征维度和数据复杂性。二、算法 https://open.alipay.com/portal/forum/post/132601050
12.迁移性好多用途,港中文提出特征分离的无监督人类三维姿态表征本文将介绍一种基于特征分离的通用人类姿态特征的学习算法Unsupervised Human 3D Pose Representation with Viewpoint and Pose Disentanglement。 该算法从无监督的特征分离过程中,习得了一个迁移性好、多用途的人类3D姿势的表征,从而有助于人工智能系统获取对人体姿态一个通用本质的理解。 https://xkxy.xauat.edu.cn/info/1085/3914.htm
13.基于深度学习的无监督领域自适应语义分割算法综述AET基于深度学习的无监督领域自适应语义分割算法综述 引言 语义分割是计算机视觉的基础任务之一,它为图像的每个像素进行类别预测,目的是将图像分割成若干个带有语义的感兴趣区域,以便后续的图像理解和分析工作,推动了自动驾驶、虚拟现实、医学影像分析和卫星成像等领域的发展。近几年来,语义分割模型的性能有着巨大的提升。http://m.chinaaet.com/tech/designapplication/3000163427
14.一文看懂無監督學習(基本概念+使用場景+2類典型演算法)無監督學習是機器學習領域內的一種學習方式。本文將給大家解釋他的基本概念,告訴大家無監督學習可以用用到哪些具體場景中。最後給大家舉例說明2類無監督學習的思維:聚類、降維。以及具體的4種演算法。https://easyai.tech/ai-definition/unsupervised-learning/