机器学习笔记监督学习和无监督学习全面总结(原理示意图代码)

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.06.19上海

本文为大家总结了监督学习和无监督学习中常用算法原理简单介绍,包括了代码的详细详解,是机器学习的入门学习,同时也是AI算法面试的重点问题。

定义:提供输入数据和其对应的标签数据,然后搭建一个模型,模型经过训练后准确的找到输入数据和标签数据之间的最优映射关系,从而对新的未标记数据进行预测或分类。

定义看懵逼了吧?接下来说人话!!!假如有一群草泥马和牛马组成的马群,这时候需要一个机器对马群进行分类,但是这个机器不知道草泥马和牛马长什么样儿,所以我们首先拿一堆草泥马和牛马的照片给机器看,告诉机器草泥马和牛马长什么样儿。机器经过反复的看,形成肌肉记忆,可以对草泥妈和牛马形成自己的定义,然后机器就可以准确的对马群进行分类。在这个过程中,草泥马和牛马的照片就叫做标签,反复的看理解为训练,形成的肌肉记忆叫做模型,这就是监督学习的过程。

定义:训练数据只包含输入样本,没有相应的标签或目标。

包装一下:我们没有拿草泥马和牛马的照片对机器进行系统的训练,机器也不知道这两个马儿长什么样,而是直接让机器对这两个马儿进行分类。这就是无监督学习。

如图所示,左图是无监督学习的过程,虽然数据被分成了两类,但是没有对应的数据标签,统一用蓝色的圆点表示,这更像是把具有相同的特征的数据聚集在一起,所以无监督学习实现分类的算法又叫做聚类。右图是监督学习中二分类的过程,标签在图中体现为三角和圆。

无监督学习的关键优势是它可以在没有人工标签的情况下自动从大量未标记的数据中获取知识。这使得无监督学习在数据探索、数据预处理和模式发现方面具有广泛的应用。它也可以用作监督学习的预处理步骤,以减少标记数据的需求或改善模型的性能。缺点是无监督学习的性能很大程度上依赖于输入数据的质量和特征。如果数据存在噪声、缺失值或异常值,这些因素可能会对模型的性能产生负面影响。

监督学习的优势是使用标记的训练数据来指导模型的学习过程,因此可以获得相对准确的预测结果。通过与真实标签进行比较,模型可以进行纠正和优化,提高预测的准确性。缺点是监督学习模型在训练阶段是通过学习训练数据的模式和规律来进行预测。如果模型在训练数据上过度拟合,可能在新的未见过的数据上表现不佳,泛化能力受到限制。

为了综合两者的优点,半监督学习诞生了。半监督学习是介于监督学习和无监督学习之间的一种机器学习方法。在半监督学习中,模型使用同时包含标记和未标记样本的训练数据进行学习。

半监督学习的优势在于:

线性回归是一种用于建立自变量(输入)和因变量(输出)之间线性关系的模型,其重点如下:

下面通过图来更加直观的看线性回归问题:X—房屋面积;—面积和价格对应的数据;Y—房屋价格;弧线—线性映射模型;

如果我们想要房屋面积对应的价格的话,通过这个线性回归模型,就可以很快的进行预测,这就是线性回归的整个过程。代码如下(示例):

importnumpyasnpfromsklearn.linear_modelimportLinearRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([2,4,6,8,10])#创建线性回归模型model=LinearRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.2逻辑回归算法逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

hθ(x)>=g(θ^T*x)其中,hθ(x)表示预测函数,g(z)表示逻辑函数(Sigmoid函数),θ是模型参数,x是输入特征向量。

g(z)>=1/(1+e^(-z))其中,e表示自然指数,z是线性回归模型的输出。

J(θ)=-1/m*∑[y*log(hθ(x))+(1-y)*log(1-hθ(x))]其中,m表示样本数量,y表示实际标签

importnumpyasnpfromsklearn.linear_modelimportLogisticRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([0,0,1,1,1])#创建逻辑回归模型model=LogisticRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.3决策树算法决策树算法用于解决分类和回归问题。它通过构建一棵树形结构来进行决策,每个内部节点表示一个特征或属性(色泽和触感),每个叶节点表示一个类别或一个数值(好瓜、坏瓜)。

常见的决策树算法有ID3、C5.0和CART,CART的分类效果一般要优于其他决策树。

ID3的核心思想是基于信息增益来选择最优的特征进行节点的划分。

THE END
1.无监督和有监督算法的区别无监督和有监督算法的区别 数据分析之路关注赞赏支持无监督和有监督算法的区别 数据分析之路关注IP属地: 北京 0.0972018.07.15 16:15:35字数510阅读39,329 1、有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就https://www.jianshu.com/p/9b2826ef8a28
2.有监督学习无监督学习半监督学习有什么区别?分别有哪些代表分别有哪些代表算法? 一、有监督学习、无监督学习、半监督学习的区别 有监督学习、无监督学习、半监督学习的概念是非常容易理解的,和字面意思几乎一致,根据有无label进行划分。 1. 有监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的https://download.csdn.net/blog/column/12178507/128752586
3.有监督学习与无监督学习机器学习算法之间的区别有监督学习和无监督学习是两类截然不同的算法。 有监督学习 在有监督学习中,可以使用一组输入数据和一组相应的已标记配对输出数据来训练模型。通常是手动完成标记。接下来是一些类型的有监督机器学习技术。 逻辑回归 逻辑回归根据一个或多个输入预测分类输出。二进制分类是指输出属于两个类别之一,例如“是”或“否http://aws.amazon.com/cn/compare/the-difference-between-machine-learning-supervised-and-unsupervised/
4.机器学习笔记有监督学习和无监督学习腾讯云开发者社区(二)有监督学习 (三)无监督学习 (四)二者的区别 (五)如何在两者中选择合适的方法 (一)什么是机器学习? 概念:从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 https://cloud.tencent.com/developer/article/2089832
5.有监督和无监督分类GIS之间的差异开源地理空间基金会中文分会摘要: 1972年,第一颗以60米分辨率收集地球反射率的卫星制成。这些过程需要对图像进行分类以实现空间分辨率的技术。有监督和无监督分类是分别涉及通过软件进行人工引导分类 和计算的图像技术,也被归类为遥感方法。例如,森林、草原、农业、水和城市等类别。 然而,鉴于在高分辨 https://www.osgeo.cn/post/19cea
6.有监督学习和无监督学习的区别是什么?无监督学习则是指在模型训练过程中,使用没有标签的数据作为输入。也就是说,我们只提供输入数据,而不给出对应的输出标签,让算法自行发现数据中的模式和结构。常见的无监督学习算法包括聚类、关联规则挖掘、主成分分析等。无监督学习适用于数据探索、降维、异常检测等任务。 有监督学习和无监督学习的区别主要在于输入数据https://www.mbalib.com/ask/question-368ccd26111bfbd98d576b5bfbf2f436.html
7.机器学习中有监督学习和无监督学习的区别表现在什么方面?PCA和很多deep learning算法都属于无监督学习。 二、有监督学习和无监督学习的区别 1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。 2.有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标https://www.cda.cn/bigdata/28000.html
8.头条文章可以看到, 图 5(a)中,红色三角形数据和蓝色圆点数据为标注数据; 图 5(b)中,绿色的小圆点为非标注数据。 图 5(c)显示监督学习将有标签的数据进行分类;而半监督学习如图 5(d)中部分是有标签的,部分是没有标签的,一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。 https://card.weibo.com/article/m/show/id/2309404598738399395890
9.[转载]最实用的机器学习算法优缺点分析,没有比这篇说得更好了!回归是一种用于连续型数值变量预测和建模的监督学习算法,使用案例包括房地产价格、股价走势或学生成绩等的预测。 回归任务的特征是具有数值型目标变量的标注数据集。换言之,每一个用以监督算法的观察样本,都有一个数值型真值。 线性回归 1.1 (正则化)线性回归 https://blog.sciencenet.cn/blog-1396960-1170780.html
10.基于无监督对抗学习的时间序列异常检测时间序列异常检测的模型可以分为有监督模型和无监督模型.由于现实的异常检测数据存在严重的长尾分布,异常样本稀少、标注困难、异常类型多样等问题限制了有监督模型的检测效果.本文重点研究基于无监督模型的时间序列异常检测算法.在基于无监督模型的时间序列异常检测算法中,常见的做法是使用正常数据训练模型,使模型学习正常https://jns.nju.edu.cn/CN/abstract/abstract1359.shtml
11.有监督和无监督学习都各有哪些有名的算法和深度学习?想问一下有监督学习和无监督学习的区别,请用比较浅显的方法描述。另外他们各自都有哪些有名的算法?比如受限波尔兹曼机属于有/无监督算法?深度学习应该算是无监督的算法大类吧?抱歉非常小白的问题,可能会有描述不清的地方,还请大牛指教查看问题描述? 关注问题写回答 ?邀请回答 ?好问题 17 ? ?https://www.zhihu.com/question/24448657/answer/2429752511