机器学习笔记监督学习和无监督学习全面总结(原理示意图代码)

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.06.19上海

本文为大家总结了监督学习和无监督学习中常用算法原理简单介绍,包括了代码的详细详解,是机器学习的入门学习,同时也是AI算法面试的重点问题。

定义:提供输入数据和其对应的标签数据,然后搭建一个模型,模型经过训练后准确的找到输入数据和标签数据之间的最优映射关系,从而对新的未标记数据进行预测或分类。

定义看懵逼了吧?接下来说人话!!!假如有一群草泥马和牛马组成的马群,这时候需要一个机器对马群进行分类,但是这个机器不知道草泥马和牛马长什么样儿,所以我们首先拿一堆草泥马和牛马的照片给机器看,告诉机器草泥马和牛马长什么样儿。机器经过反复的看,形成肌肉记忆,可以对草泥妈和牛马形成自己的定义,然后机器就可以准确的对马群进行分类。在这个过程中,草泥马和牛马的照片就叫做标签,反复的看理解为训练,形成的肌肉记忆叫做模型,这就是监督学习的过程。

定义:训练数据只包含输入样本,没有相应的标签或目标。

包装一下:我们没有拿草泥马和牛马的照片对机器进行系统的训练,机器也不知道这两个马儿长什么样,而是直接让机器对这两个马儿进行分类。这就是无监督学习。

如图所示,左图是无监督学习的过程,虽然数据被分成了两类,但是没有对应的数据标签,统一用蓝色的圆点表示,这更像是把具有相同的特征的数据聚集在一起,所以无监督学习实现分类的算法又叫做聚类。右图是监督学习中二分类的过程,标签在图中体现为三角和圆。

无监督学习的关键优势是它可以在没有人工标签的情况下自动从大量未标记的数据中获取知识。这使得无监督学习在数据探索、数据预处理和模式发现方面具有广泛的应用。它也可以用作监督学习的预处理步骤,以减少标记数据的需求或改善模型的性能。缺点是无监督学习的性能很大程度上依赖于输入数据的质量和特征。如果数据存在噪声、缺失值或异常值,这些因素可能会对模型的性能产生负面影响。

监督学习的优势是使用标记的训练数据来指导模型的学习过程,因此可以获得相对准确的预测结果。通过与真实标签进行比较,模型可以进行纠正和优化,提高预测的准确性。缺点是监督学习模型在训练阶段是通过学习训练数据的模式和规律来进行预测。如果模型在训练数据上过度拟合,可能在新的未见过的数据上表现不佳,泛化能力受到限制。

为了综合两者的优点,半监督学习诞生了。半监督学习是介于监督学习和无监督学习之间的一种机器学习方法。在半监督学习中,模型使用同时包含标记和未标记样本的训练数据进行学习。

半监督学习的优势在于:

线性回归是一种用于建立自变量(输入)和因变量(输出)之间线性关系的模型,其重点如下:

下面通过图来更加直观的看线性回归问题:X—房屋面积;—面积和价格对应的数据;Y—房屋价格;弧线—线性映射模型;

如果我们想要房屋面积对应的价格的话,通过这个线性回归模型,就可以很快的进行预测,这就是线性回归的整个过程。代码如下(示例):

importnumpyasnpfromsklearn.linear_modelimportLinearRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([2,4,6,8,10])#创建线性回归模型model=LinearRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.2逻辑回归算法逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

逻辑回归实际上是一种分类算法,它的输出是一个概率值,表示样本属于某个类别的概率。逻辑回归模型的数学表示如下:

hθ(x)>=g(θ^T*x)其中,hθ(x)表示预测函数,g(z)表示逻辑函数(Sigmoid函数),θ是模型参数,x是输入特征向量。

g(z)>=1/(1+e^(-z))其中,e表示自然指数,z是线性回归模型的输出。

J(θ)=-1/m*∑[y*log(hθ(x))+(1-y)*log(1-hθ(x))]其中,m表示样本数量,y表示实际标签

importnumpyasnpfromsklearn.linear_modelimportLogisticRegression#输入数据X=np.array([[1],[2],[3],[4],[5]])y=np.array([0,0,1,1,1])#创建逻辑回归模型model=LogisticRegression()#拟合模型model.fit(X,y)#预测X_test=np.array([[6],[7]])y_pred=model.predict(X_test)#输出预测结果print(y_pred)1.3决策树算法决策树算法用于解决分类和回归问题。它通过构建一棵树形结构来进行决策,每个内部节点表示一个特征或属性(色泽和触感),每个叶节点表示一个类别或一个数值(好瓜、坏瓜)。

常见的决策树算法有ID3、C5.0和CART,CART的分类效果一般要优于其他决策树。

ID3的核心思想是基于信息增益来选择最优的特征进行节点的划分。

THE END
1.监督学习机器之心监督式学习算法多种多样,每种算法各有其优势和弱点。并没有某一种算法可以解决所有的监督式学习问题,这被称为‘天下没有免费的午餐’理论。目前被广泛使用的监督式学习算法有人工神经网络、线性回归、逻辑回归、线性识别分析、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等。 https://www.jiqizhixin.com/graph/technologies/94fdbfed-9ebb-491b-b54e-9c2aae512f70
2.监督学习的分类算法所有的回归算法和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 以下是一些常用的监督型学习方法。 一.K-近邻算法(k-Nearest Neighbors,KNN),K-近邻是一种分类算法,其思路是:如果一个https://wenku.baidu.com/view/3976264b02f69e3143323968011ca300a6c3f6fd.html
3.监督学习方法精讲在机器学习中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(Supervised learning)就是有训练样本,带有属性标签,也可以理解成样本有输入有输出。 所有的回归算法和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于https://blog.csdn.net/laobai1015/article/details/75006511
4.自监督学习算法BarlowTwins在ImageNet ILSVRC-2012 dataset上用自监督的方法进行预训练,在图像分类和目标检测任务上进行验证。 Linear evaluation on ImageNet Top1 73.2% image.png IMAGENET 半监督性能 用预训练的twins在imagnet的1%和10%有标签的子集进行半监督学习测试。 image.png https://www.jianshu.com/p/7f7f0c14ece5
5.无监督深度学习经典算法无监督算法举例1,有监督:通常被称为监督学习(supervised learning),常用于回归问题和分类问题。使用这种方法需要提供原始数据以及其对应的标签,常用的监督学习方法有K-近邻算法(k-Nearest Neighbors,KNN),决策树(Decision Trees),朴素贝叶斯(Naive Bayesian),逻辑回归(Logistic Regression)等。 https://blog.51cto.com/u_16099252/9423357
6.头条文章大部分模型都是属于监督学习,包括线性分类器、支持向量机等。常见的监督学习算法有: k-近邻算法(k-Nearest Neighbors, kNN)、决策树(Decision Trees)、朴素贝叶斯(Naive Bayesian)等。监督学习的基本流程如图1所示。 图1 监督学习的基本流程 无监督学习(Unsupervised Learning, UL)https://card.weibo.com/article/m/show/id/2309404598738399395890
7.科学网—[转载]最实用的机器学习算法优缺点分析,没有比这篇说得更分类是一种用于分类变量建模及预测的监督学习算法,使用案例包括员工流失、邮件过滤、金融欺诈等的预测。 正如你所见,许多回归算法都有其对应的分类形式,分类算法往往适用于类别(或其可能性)的预测,而非数值。 逻辑回归 2.1 (正则化)逻辑回归 逻辑回归是线性回归所对应的分类方法,基本概念由线性回归推导而出。逻辑回归https://blog.sciencenet.cn/blog-1396960-1170780.html
8.17个机器学习的常用算法在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inferehttps://aidc.shisu.edu.cn/78/aa/c13626a161962/page.htm
9.机器学习(一)2万多字的监督学习模型总结? 本文根据Andreas C.Muller的《Introduction to Machine Learning with Python》和西瓜书,整理了常见的监督学习模型。本文不讲解复杂的数学理论,涉及到了K近邻、线性模型、朴素贝叶斯分类器、决策树、随机森林、梯度提升回归树、SVM、MLP,以及监督学习模型的选择原则,全文2万多字,后续还会进一步补充。 https://www.flyai.com/article/515
10.《常用算法之智能计算(三)》:机器学习计算(2)基于学习方式的分类 机器学习算法按照学习方式的不同可以分为五种类型:有监督学习、无监督学习、半监督学习、强化学习和深度学习。 1)有监督学习?输入的数据为训练数据,并且每一个数据都会带有标签或类别。通过训练过程建模,模型需要作出预测,如果预测出错会被修正,直到模型输出准确的训练结果,训练过程会一直http://www.kepu.cn/blog/zhangjianzhong/201903/t20190327_475625.html
11.学习笔记:神经网络学习算法腾讯云开发者社区主流的神经网络学习算法(或者说学习方式)可分为三大类:有监督学习(SupervisedLearning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示。 注:有监督学习、无监督学习和强化学习并不是某一种特定的算法,而是一类算法的统称。 https://cloud.tencent.com/developer/article/1610502