一文看懂监督学习(基本概念+4步流程+9个典型算法)

监督学习是机器学习中的一种训练方式/学习方式:

监督学习需要有明确的目标,很清楚自己想要什么结果。比如:按照“既定规则”来分类、预测某个具体的值…

监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程:

监督学习有2个主要的任务:

回归:预测连续的、具体的数值。比如:支付宝里的芝麻信用分数(下面有详细讲解)

分类:对各种事物分门别类,用于离散型(什么是离散?)预测。比如:

下面要说的是个人信用评估方法——FICO。

他跟芝麻信用类似,用来评估个人的信用状况。FICO评分系统得出的信用分数范围在300~850分之间,分数越高,说明信用风险越小。

下面我们来模拟一下FICO的发明过程,这个过程就是监督学习力的回归。

步骤1:构建问题,选择模型

我们首先找出个人信用的影响因素,从逻辑上讲一个人的体重跟他的信用应该没有关系,比如我们身边很讲信用的人,有胖子也有瘦子。

而财富总额貌似跟信用有关,因为马云不讲信用的损失是非常巨大的,所以大家从来没有听说马云会不还信用卡!而一个乞丐不讲信用的损失是很小的,这条街混不下去了换一条街继续。

所以根据判断,找出了下面5个影响因素:

这个时候,我们就构建了一个简单的模型:

f可以简单理解为一个特定的公式,这个公式可以将5个因素跟个人信用分形成关联。

我们的目标就是得到f这个公式具体是什么,这样我们只要有了一个人的这5种数据,就可以得到一个人的信用分数了。

步骤2:收集已知数据

为了找出这个公式f,我们需要先收集大量的已知数据,这些数据必须包含一个人的5种数据和他/她的信用状态(把信用状态转化为分数)。

我们把数据分成几个部分,一部分用来训练,一部分用来测试和验证。

步骤3:训练出理想模型

有了这些数据,我们通过机器学习,就能”猜测”出这5种数据和信用分数的关系。这个关系就是公式f。

然后我们再用验证数据和测试数据来验证一下这个公式是否OK。

测试验证的具体方法是:

步骤4:对新用户进行预测

当我们想知道一个新用户的信用状况时,只需要收集到他的这5种数据,套进公式f计算一遍就知道结果了!

美国心理学家戈特曼博士用大数据还原婚姻关系的真相,他的方法就是分类的思路。

戈特曼博士在观察和聆听一对夫妻5分钟的谈话后,便能预测他们是否会离婚,且预测准确率高达94%!他的这项研究还出了一本书《幸福的婚姻》(豆瓣8.4分)。

戈特曼提出,对话能反映出夫妻之间潜在的问题,他们在对话中的争吵、欢笑、调侃和情感表露创造了某种情感关联。通过这些对话中的情绪关联可以将夫妻分为不同的类型,代表不同的离婚概率。

研究人员邀请了700对夫妻参与实验。他们单独在一间屋子里相对坐下,然后谈论一个有争论的话题,比如金钱和性,或是与姻亲的关系。默里和戈特曼让每一对夫妻持续谈论这个话题15分钟,并拍摄下这个过程。观察者看完这些视频之后,就根据丈夫和妻子之间的谈话给他们打分。

戈特曼的方法并不是用机器学习来得到结果,不过原理都是类似的。他得到的结论如下:

首先,他们将夫妻双方的分数标绘在一个图表上,两条线的交叉点就可以说明婚姻能否长久稳定。如果丈夫或妻子持续得负分,两人很可能会走向离婚。重点在于定量谈话中正负作用的比率。理想中的比率是5∶1,如果低于这个比例,婚姻就遇到问题了。最后,将结果放在一个数学模型上,这个模型用差分方程式凸显出成功婚姻的潜在特点。

戈特曼根据得分,将这些夫妻分成5组:

该数学模型呈现了两种稳定型夫妻(关系和谐的夫妻和关系不和谐的夫妻)和两种不稳定型夫妻(敌对夫妻和无感夫妻)之间的区别。而据预测,不稳定的夫妻可能会一直保持婚姻关系,尽管他们的婚姻不稳定。

12年以来,每隔一两年,默里和戈特曼都会与参与研究的那700对夫妻交流。两个人的公式对离婚率的预测达到了94%的准确率。

监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

监督学习是学习函数的机器学习任务,该函数基于示例输入–输出对将输入映射到输出。它推断出一个函数标记的训练数据由一组训练样例组成。在监督学习,每个实施例是一个对由输入物体(通常为矢量)和期望的输出值的(也称为监控信号)。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新示例。最佳方案将允许算法正确地确定看不见的实例的类标签。这要求学习算法以“合理”的方式从训练数据推广到看不见的情况。

THE END
1.什么是算法?算法第一篇本文阐述自己对算法的理解,如果不正确,还请指正。 算法是实践数学是本文最新颖最核心的观点。我们要区分应用数学和实践数学的区别,也要区分计算数学和实践数学的区别。 计算数学和应用数学都是世界观,都是理论,而并没有重视实践的重要性。 而算法就是更加符合辩证唯物论的学科,这https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649498413&idx=8&sn=1a3bb98bcd0ef37a0dc6bbb4600f04f0&chksm=bec6416a89b1c87c457038d43307c6877407f95096e77eb430361611fd4c17dbbac9d000fc76&scene=27
2.什么是算法?(翻译文章)算法的概念来自于哪个数学家“算法”一词源自波斯学者Abdullah Jafar Muhammad ibn Musa Al-Khwarizmi的名字,他是九世纪的数学家和天文学家。他的工作为代数和数学算法过程的发展奠定了基础。他经常被称为“代数之父”。Al-Khwarizmi 对算法定义的贡献是深远的: 算法是一种定义明确的计算程序,由一组有限的步骤组成,接受一个或多个输入并产生https://blog.csdn.net/qq_20245171/article/details/143428003
3.科技名词算法algorithm科技博览科普博览资讯核心提示:算法algorithm定义:解决给定问题的确定的计算机指令序列,用以系统地描述解决问题的步骤。学科:计算机科学技术_理论计算机科学_算法设计与分析相关名词:指令 程序 软件开发图片来源:视觉中国【延伸阅读】算法是解题方案准确而完整的描述,是一系列解决问题的清晰指令,代表着用系统的方法描述解决问题的策略机制。也就http://www.agricoop.net/news/show.php?itemid=21242
4.粒子群算法(ParticleswarmoptimizationPSO)百度百科版本 粒子群算法,也称粒子群优化算法或鸟群觅食算法(Particle Swarm Optimization),缩写为 PSO, 是由J. Kennedy和R. C. Eberhart等开发的一种新的进化算法(Evolutionary Algorithm – EA)。 PSO 算法属于进化算法的一种,和模拟退火算法相似,它也是从随机解出发,通过迭代寻找最优解,它也是通过适应度来评价https://cloud.tencent.com/developer/article/1555832
5.PythonRSA算法使用dmyHero基于python使用RSA算法加密数据 算法百科 (https://baike.baidu.com/item/RSA算法/263310?fromtitle=RSA&fromid=210678"RSA算法百度百科") RSA算法的三位爸爸们 Python代码实现 公钥密钥为随机生成 MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQDeOF64E9PkZ7XR4xEz4BZs4z0X https://www.cnblogs.com/rain-chenwei/p/15209423.html
6.一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」15种经典机器学习算法 ner“> 百度百科+维基百科 百度百科版本 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智https://easyai.tech/ai-definition/machine-learning/
7.组合算法组合算法(combinatorial algorithm)是组合学的一个研究分支,一些组合问题需用电子计算机解决,当研究如何进行计算时,就需要研究算法,组合算法是一类不同于代数计算的方法,为使这种算法能够有效地进行,对于每种组合算法,必须研究其组合结构和在此基础上讨论其时间的复杂性和空间的复杂性问题,即对算法所需的时间和存储https://baike.baidu.com/item/%E7%BB%84%E5%90%88%E7%AE%97%E6%B3%95/10537547
8.计算机视觉和算法计算机视觉算法分类摘自百度百科。。。 (1)基于区域的跟踪算法 起初,基于区域的跟踪算法中所用到的目标模板是固定的,如 Lucas 等人提出 Lucas-Kanade 方法,该方法利用灰度图像的空间梯度信息寻找最佳匹配区域,确定目标位置。之后,更多的学者针对基于区域方法的缺点进行了不同的改进,如:Jepson 等人提出的基于纹理特征的自适应目标外观模型https://blog.51cto.com/u_16099326/9231856
9.干货遗传算法(GeneticAlgorithm)(附代码及注释)1.2 遗传算法的执行过程(参照百度百科) 遗传算法是从代表问题可能潜在的解集的一个种群(population)开始的,而一个种群则由经过基因(gene)编码的一定数目的个体(individual)组成。每个个体实际上是染色体(chromosome)带有特征的实体。 染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(即基因型)是某种基因组合,https://zhuanlan.zhihu.com/p/555431690