今日学习常见十种机器学习算法详解

|“没有最好的算法,只有最合适的算法。”

机器学习算法大致分类

常见的的十种机器学习算法

01回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。

常见的回归算法包括:最小二乘法(OrdinaryLeastsquare),线性回归(LinearRegression),逻辑回归(LogisticRegression),逐步式回归(StepwiseRegression),多元自适应回归样条(MultivariateAdaptiveRegressionSplines)以及本地散点平滑估计(LocallyEstimatedScatterplotSmoothing)。

优点:直接、快速,知名度高

缺点:要求严格的假设需要处理异常值

02基于实例的算法

基于实例的算法常常用来对决策问题建立模型,先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此,基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。

常见的算法包括k-NearestNeighbor(KNN),学习矢量量化(LearningVectorQuantization,LVQ),以及自组织映射算法(Self-OrganizingMap,SOM)。

优点:

1)简单、有效。

2)重新训练的代价较低(类别体系的变化和训练集的变化,在Web环境和电子商务应用中是很常见的)。

缺点:

1)当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

2)对数据的局部结构比较敏感。如果查询点是位于训练集较密集的区域,那预测相对比其他稀疏集来说更准确。

3)维数灾难:临近距离可能被不相干属性主导(因此特征选择问题)

03决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型,决策树模型常常用来解决分类和回归问题。

常见的算法包括:分类及回归树(ClassificationAndRegressionTree,CART),ID3(IterativeDichotomiser3),C4.5,Chi-squaredAutomaticInteractionDetection(CHAID),DecisionStump,随机森林(RandomForest),多元自适应回归样条(MARS)以及梯度推进机(GradientBoostingMachine,GBM)。

优点:容易解释,非参数型

缺点:趋向过拟合;可能或陷于局部最小值中;没有在线学习

04贝叶斯算法

贝叶斯算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法,平均单依赖估计(AveragedOne-DependenceEstimators,AODE),以及BayesianBeliefNetwork(BBN)。

朴素贝叶斯算法应用非常广泛,从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景,例如利用花瓣的长度和宽度来预测花的类型。“朴素”。的内涵可以理解为特征和特征之间独立性强。

优点:快速、易于训练、给出了它们所需的资源能带来良好的表现

05基于核的算法

基于核的算法中最著名的莫过于支持向量机(SVM)了。基于核的算法把输入数据映射到一个高阶的向量空间,在这些高阶向量空间里,有些分类或者回归问题能够更容易的解决。

常见的基于核的算法包括:持向量机(SupportVectorMachine,SVM),径向基函数(RadialBasisFunction,RBF),以及线性判别分析(LinearDiscriminateAnalysis,LDA)等。

优点:在非线性可分问题上表现优秀

缺点:非常难以训练;很难解释

06聚类算法

聚类,就像回归一样,有时候人们描述的是一类问题,有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。

常见的聚类算法包括k-Means算法以及期望最大化算法(ExpectationMaximization,EM)。

优点:让数据变得有意义

缺点:结果难以解读,针对不寻常的数据组,结果可能无用。

07降维算法

像聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。

常见的算法包括:主成份分析(PrincipleComponentAnalysis,PCA),偏最小二乘回归(PartialLeastsquareRegression,PLS),Sammon映射,多维尺度(Multi-DimensionalScaling,MDS),投影追踪(ProjectionPursuit)等。

优点:可处理大规模数据集;无需在数据上进行假设

缺点:难以搞定非线性数据;难以理解结果的意义

08关联规则学习

关联规则学习方法能够提取出对数据中的变量之间的关系的最佳解释。比如说一家超市的销售数据中存在规则{洋葱,土豆}=>{汉堡},那说明当一位客户同时购买了洋葱和土豆的时候,他很有可能还会购买汉堡肉。

常见算法包括Apriori算法和Eclat算法等。

09集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法,同时也非常流行。

常见的算法包括:Boosting,BootstrappedAggregation(Bagging),AdaBoost,堆叠泛化(StackedGeneralization,Blending),梯度推进机(GradientBoostingMachine,GBM),随机森林(RandomForest)。

优点:当先最先进的预测几乎都使用了算法集成。它比使用单个模型预测出来的结果要精确的多。

缺点:需要大量的维护工作。

10人工神经网络

人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。

人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法,(其中深度学习就是其中的一类算法),重要的人工神经网络算法包括:感知器神经网络(PerceptronNeuralNetwork),反向传递(BackPropagation),Hopfield网络,自组织映射(Self-OrganizingMap,SOM)学习矢量量化(LearningVectorQuantization,LVQ)。

THE END
1.程序员必须知道的10大基础实用算法及其讲解快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序n个项目要Ο(nlogn)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(nlogn) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。 https://blog.csdn.net/weixin_33921089/article/details/92655408
2.历史上最著名的3个数学算法,关于算法的观念,直到今天还在演进对于“算法”一词给以精确的定义不是一件容易事,有一些意义相近的同义语,就是一些其他的名词,它们(有时)会给出差不多同样的东西,例如法则技巧”“程序”还有“方法”等等都是这种同义语。也可以给出一些例子,如长乘法,就是小学生学的把两个正整数相乘的竖式乘法。然而,虽然非形式的解释和恰当的例子对于https://baijiahao.baidu.com/s?id=1804985943646011952&wfr=spider&for=pc
3.算法概述常见算法有许多种 算法预览.png 简单点的比如:递归、递推、迭代、穷举、概率算法、随机算法等 复杂些的比如:分治算法、贪心算法、动态规划、回溯法、分支限界等,后面会赘述一些这几种算法的基本思想与常见应用。 # 影响算法速度的因素 不一样规模的问题,处理起来的难度是不一样的 → 数据的组织方式 → 解决问题https://www.jianshu.com/p/8c8d20a9bde8
4.数据挖掘的常见算法有哪些?数据挖掘的常见算法有哪些? 数据挖掘是一种通过从大量数据中提取知识和信息的方法,以支持业务决策、市场分析和科学研究等领域。在数据挖掘过程中,算法是最重要的组成部分之一。以下是常见的数据挖掘算法。 1.分类算法 分类算法是一类用于将数据样本分为不同类别的算法。这些算法通常使用监督学习方法,其中模型基于已标记https://www.cda.cn/bigdata/202782.html
5.几种常见的算法2021-07-20 几种常见的分布_几种常见的不良学习习惯 1、 分心学习分心学习习惯是指有些学生在学习的时候同时还做别的事情,如听广播、看电视、上课补其他学科作业或者看小说等等。其实这种做法是违背心理学规律的。因为注意是学习的必要条件,在学习的时候做别的事学法指导 [阅读本文] 2023-06-13 八年级语文学法https://www.oubohk.cn/k/jizhongchangjiandesuanfa/
6.程序员会使用的十个基础算法三. 图算法 1. 最短路径算法:最短路径算法用于寻找两个节点之间的最短路径。常用的最短路径算法有Dijkstra算法和Floyd-Warshall算法。 2. 最小生成树算法:最小生成树算法用于在一个带权重的无向图中找出一棵包含所有节点的子树,并且使得该子树的边权重之和最小。常见的最小生成树算法有Prim算法和Kruskal算法。 https://zhuanlan.zhihu.com/p/656882756
7.一文图解弄懂八大常用算法思想片面了啊。题总是刷不完的,但是算法的思想就那么几个。所以呢,刷了那么多题的你,还不了解这几个常见的算法思想,想必是应该好好反省反省下了。 枚举 首先,最为简单的思想,枚举算法。枚举也叫穷举,顾名思义,就是穷尽列举。枚举思想的应用场景十分广泛,也非常容易理解。简单来说,枚举就是将问题的可能性依次列举https://www.51cto.com/article/628524.html
8.C语言10大常见基础算法C语言10大常见基础算法 算法是一个程序和软件的灵魂,作为一名优秀的程序员,只有对一些基础的算法有着全面的掌握,才会在设计程序和编写代码的过程中显得得心应手。本文是包括了经典的Fibonacci数列、简易计算器、回文检查、质数检查等算法。 1、计算Fibonacci数列https://m.sohu.com/a/497664110_121124371
9.排序算法总结菜鸟教程数据的顺序排好之后,冒泡算法仍然会继续进行下一轮的比较,直到arr.length-1次,后面的比较没有意义的。 方案:设置标志位flag,如果发生了交换flag设置为true;如果没有交换就设置为false。这样当一轮比较结束后如果flag仍为false,即:这一轮没有发生交换,说明数据的顺序已经排好,没有必要继续进行下去。 实例 public https://www.runoob.com/w3cnote/sort-algorithm-summary.html
10.“才”聚天开,勇往“职”前4.C/C++,数据结构,算法,网络通信等基础扎实: 5.关注新技术,自学能力强,能够与公司共同进步; 6.逻辑思维能力强,善于沟通,团队意识强; 7.工作认真细致,责任心强。 静象文旅科技发展(天津)有限公司 01企业简介 向上滑动阅览 沉浸式文旅项目开发业务,为中小型文旅场馆沉浸式文旅体验项目开发提供综合解决方案。 https://www.tjrc.com.cn/app/article/content/VE4rR2NWRjUzUU5SOFFxWDdRa09oZz09.shtml
11.17个机器学习的常用算法!腾讯云开发者社区在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。 3. 半监督式学习: 在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理https://cloud.tencent.com/developer/article/1874962