机器学习笔记监督学习和无监督学习全面总结(原理示意图代码)

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.06.19上海

本文为大家总结了监督学习和无监督学习中常用算法原理简单介绍,包括了代码的详细详解,是机器学习的入门学习,同时也是AI算法面试的重点问题。

定义:提供输入数据和其对应的标签数据,然后搭建一个模型,模型经过训练后准确的找到输入数据和标签数据之间的最优映射关系,从而对新的未标记数据进行预测或分类。

定义看懵逼了吧?接下来说人话!!!假如有一群草泥马和牛马组成的马群,这时候需要一个机器对马群进行分类,但是这个机器不知道草泥马和牛马长什么样儿,所以我们首先拿一堆草泥马和牛马的照片给机器看,告诉机器草泥马和牛马长什么样儿。机器经过反复的看,形成肌肉记忆,可以对草泥妈和牛马形成自己的定义,然后机器就可以准确的对马群进行分类。在这个过程中,草泥马和牛马的照片就叫做标签,反复的看理解为训练,形成的肌肉记忆叫做模型,这就是监督学习的过程。

定义:训练数据只包含输入样本,没有相应的标签或目标。

包装一下:我们没有拿草泥马和牛马的照片对机器进行系统的训练,机器也不知道这两个马儿长什么样,而是直接让机器对这两个马儿进行分类。这就是无监督学习。

如图所示,左图是无监督学习的过程,虽然数据被分成了两类,但是没有对应的数据标签,统一用蓝色的圆点表示,这更像是把具有相同的特征的数据聚集在一起,所以无监督学习实现分类的算法又叫做聚类。右图是监督学习中二分类的过程,标签在图中体现为三角和圆。

无监督学习的关键优势是它可以在没有人工标签的情况下自动从大量未标记的数据中获取知识。这使得无监督学习在数据探索、数据预处理和模式发现方面具有广泛的应用。它也可以用作监督学习的预处理步骤,以减少标记数据的需求或改善模型的性能。缺点是无监督学习的性能很大程度上依赖于输入数据的质量和特征。如果数据存在噪声、缺失值或异常值,这些因素可能会对模型的性能产生负面影响。

监督学习的优势是使用标记的训练数据来指导模型的学习过程,因此可以获得相对准确的预测结果。通过与真实标签进行比较,模型可以进行纠正和优化,提高预测的准确性。缺点是监督学习模型在训练阶段是通过学习训练数据的模式和规律来进行预测。如果模型在训练数据上过度拟合,可能在新的未见过的数据上表现不佳,泛化能力受到限制。

为了综合两者的优点,半监督学习诞生了。半监督学习是介于监督学习和无监督学习之间的一种机器学习方法。在半监督学习中,模型使用同时包含标记和未标记样本的训练数据进行学习。

半监督学习的优势在于:

线性回归是一种用于建立自变量(输入)和因变量(输出)之间线性关系的模型,其重点如下:

下面通过图来更加直观的看线性回归问题:X—房屋面积;—面积和价格对应的数据;Y—房屋价格;弧线—线性映射模型;

如果我们想要房屋面积对应的价格的话,通过这个线性回归模型,就可以很快的进行预测,这就是线性回归的整个过程。代码如下(示例):

importnumpyasnpfromsklearn.linear_modelimportLinearRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([2,4,6,8,10])#创建线性回归模型model=LinearRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.2逻辑回归算法逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

hθ(x)>=g(θ^T*x)其中,hθ(x)表示预测函数,g(z)表示逻辑函数(Sigmoid函数),θ是模型参数,x是输入特征向量。

g(z)>=1/(1+e^(-z))其中,e表示自然指数,z是线性回归模型的输出。

J(θ)=-1/m*∑[y*log(hθ(x))+(1-y)*log(1-hθ(x))]其中,m表示样本数量,y表示实际标签

importnumpyasnpfromsklearn.linear_modelimportLogisticRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([0,0,1,1,1])#创建逻辑回归模型model=LogisticRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.3决策树算法决策树算法用于解决分类和回归问题。它通过构建一棵树形结构来进行决策,每个内部节点表示一个特征或属性(色泽和触感),每个叶节点表示一个类别或一个数值(好瓜、坏瓜)。

常见的决策树算法有ID3、C5.0和CART,CART的分类效果一般要优于其他决策树。

ID3的核心思想是基于信息增益来选择最优的特征进行节点的划分。

THE END
1.人工智能技术基础系列之:无监督学习算法AI实战无监督学习通常被应用于以下三个领域: 数据聚类:无监督学习可以用来发现数据中隐藏的结构和模式。例如,给定一组照片,无监督学习算法可以将它们分成若干个主题(如人脸、自拍照、地点),每个主题下又https://download.csdn.net/blog/column/12277289/133971329
2.机器学习(二)之无监督学习:数据变换聚类分析无监督学习算法只有输入数据,而没有已知的输出标签(label),我们需要从这些数据中学习到信息。常见的无监督学习包括数据集变换和聚类。 数据集的无监督变换(unsupervised transformation)是创建数据新的表示的算法,与数据的原始表示相比,新的表示可能更容易被人或其他机器学习算法所理解。无监督变换的一个常见应用是降维(https://www.flyai.com/article/516
3.下列属于无监督学习算法的是()证券投资顾问考试题库下列属于无监督学习算法的是()。 A 、策树决 B 、聚类 C 、支持向量机 D 、朴素贝叶斯 扫码下载亿题库 精准题库快速提分 参考答案 【正确答案:B】 无监督学习常见算法如聚类。https://www.bkw.cn/tiku/GPqe5.html
4.无监督深度学习经典算法无监督算法举例2,无监督:通常被称为无监督学习(Unsupervised Learning),通常用于在拥有的数据集没有被标记,也没有确定的结果的情况下对数据进行分类。无监督学习一般根据样本间的相似性对样本集进行分类,试图使类内差距最小化,类间差距最大化。常用的无监督学习方法有EM算法,K-MEANS聚类,稀疏自编码,限制波尔兹曼机等 https://blog.51cto.com/u_16099252/9423357
5.第十四章无监督学习14.1 无监督学习 聚类算法(非监督学习算法)。我们将要让计算机学习无标签数据,而不是此前的标签数据。 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们https://www.jianshu.com/p/8c91fd177c00
6.机器学习:什么是无监督学习(UnsupervisedLearning)?上一片文章我们了解了监督学习,监督学习是一种目的明确的训练方式,通过已知因素和已知的结果,通过机器训练,是机器能学会通过已知因素得到未知的结果。而无监督学习是通过给未知的数据,进行分类,也许你就会问了,我都不知道有什么规律,我怎么区分类呢?这就是用到算法模型了。 https://cloud.tencent.com/developer/article/1804152
7.机器学习中的有监督和无监督都包括些什么?机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测数字答案,例如下个月在曼哈顿商店出售的小部件的数量)。 https://www.cda.cn/view/27593.html
8.头条文章跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设, 将样本分类。常见的无监督学习算法包括:稀疏自编码(Sparse Auto Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means 算法(K 均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applicationshttps://card.weibo.com/article/m/show/id/2309404598738399395890
9.科学网—[转载]最实用的机器学习算法优缺点分析,没有比这篇说得更分类是一种用于分类变量建模及预测的监督学习算法,使用案例包括员工流失、邮件过滤、金融欺诈等的预测。 正如你所见,许多回归算法都有其对应的分类形式,分类算法往往适用于类别(或其可能性)的预测,而非数值。 逻辑回归 2.1 (正则化)逻辑回归 逻辑回归是线性回归所对应的分类方法,基本概念由线性回归推导而出。逻辑回归https://blog.sciencenet.cn/blog-1396960-1170780.html
10.无监督神经网络:算法与应用无监督学习算法:无监督学习算法是一种基于深度学习的无监督学习方法,它可以利用神经网络的学习能力和非线性映射能力来从原始数据中自动提取特征。无监督学习算法的典型代表包括堆叠式自编码器(stacked autoencoder)和生成对抗网络(generative adversarial network,GAN)。 其他无监督神经网络算法:除了无监督感知算法和无监督学https://developer.baidu.com/article/detail.html?id=2157019
11.MachineLearning系列一文带你详解什么是无监督学习与监督学习不同,无监督学习不需要事先标记好的训练数据,而是通过对数据的自动处理和聚类来进行学习。无监督学习可以分为两类问题:聚类和降维。聚类问题是将数据分成不同的组或簇,使得同一组内的数据相似度高,不同组之间的相似度低。降维问题是将高维数据映射到低维空间,以减少特征维度和数据复杂性。二、算法 https://open.alipay.com/portal/forum/post/132601050
12.迁移性好多用途,港中文提出特征分离的无监督人类三维姿态表征本文将介绍一种基于特征分离的通用人类姿态特征的学习算法Unsupervised Human 3D Pose Representation with Viewpoint and Pose Disentanglement。 该算法从无监督的特征分离过程中,习得了一个迁移性好、多用途的人类3D姿势的表征,从而有助于人工智能系统获取对人体姿态一个通用本质的理解。 https://xkxy.xauat.edu.cn/info/1085/3914.htm
13.基于深度学习的无监督领域自适应语义分割算法综述AET基于深度学习的无监督领域自适应语义分割算法综述 引言 语义分割是计算机视觉的基础任务之一,它为图像的每个像素进行类别预测,目的是将图像分割成若干个带有语义的感兴趣区域,以便后续的图像理解和分析工作,推动了自动驾驶、虚拟现实、医学影像分析和卫星成像等领域的发展。近几年来,语义分割模型的性能有着巨大的提升。http://m.chinaaet.com/tech/designapplication/3000163427
14.一文看懂無監督學習(基本概念+使用場景+2類典型演算法)無監督學習是機器學習領域內的一種學習方式。本文將給大家解釋他的基本概念,告訴大家無監督學習可以用用到哪些具體場景中。最後給大家舉例說明2類無監督學習的思維:聚類、降維。以及具體的4種演算法。https://easyai.tech/ai-definition/unsupervised-learning/