机器学习10大经典算法详解

本文归纳了机器学习的10大算法,并分别整理了各算法的优缺点及主要特征,供大家学习参考。读完本文,你将掌握以下机器学习10大算法的基本概念及主要适用情况,是机器学习过程不可错过的基础概念篇。

本文涵盖的机器学习领域10大算法包括:

·决策树算法

·朴素贝叶斯算法

·K最近邻算法

·AdaBoost算法

·PageRank算法

·EM算法(期望最大化算法)

·Apriori算法

·SVM算法

·K均值聚类算法

·线性回归算法LinearRegression

下面我们将具体展开介绍。

1.决策树算法

决策树,是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层就是根节点。

决策树的生成过程主要分为以下3个部分:

1.特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。

2.决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式

3.剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

树模型和线性模型之间的区别

树形模型是一个一个特征进行处理,线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率闻值的划分为一类,小于某一概率闻值的为另一类,而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x进行多维映射),而决策树可以找到非线性分割。

而树形模型更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有可解释性(可以抽取规则)。树模型拟合出来的函数其实是分区间的阶梯函数。

算法优点:

·学习以及预测的速度都非常快;

·并且树模型适用于各种各样的问题,不需要对数据进行任何特殊的处理。

算法缺点:

·对连续性的字段比较难预测。

·容易出现过拟合。

·对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

决策树的典型算法包括ID3,C4.5,CART等,下面重点介绍一下C4.5和CART。

C4.5

国际权威的学术组织,数据挖掘国际会议ICDM(theIEEEInternationalConferenceonDataMining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2)在树构造过程中进行剪枝;

3)能够完成对连续属性的离散化处理;

4)能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

CART

CART(ClassificaTIonandRegressionTree)分类回归树是一种决策树构建算法。不同于ID3与C4.5,CART为一种二分决策树,是满二叉树。CART算法由Breiman等人在1984年提出,它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。

CART算法既可以处理离散型问题,也可以处理连续型问题。这种算法在处理连续型问题时,主要通过使用二元切分来处理连续型变量,即特征值大于某个给定的值就走左子树,或者就走右子树。

CART优点:

·可以生成可以理解的规则;

·计算量相对来说不是很大;

·可以处理连续和种类字段;

·决策树可以清晰的显示哪些字段比较重要。

CART缺点:

·对连续性的字段比较难预测;

·当类别太多时,错误可能就会增加的比较快;

·一般的算法分类的时候,只是根据一个字段来分类。

2.朴素贝叶斯算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(NaiveBayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法。

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系(决策函数Y=f(X)或者条件分布P(Y∣X))。但朴素贝叶斯是生成方法,它直接找出特征输出Y和特征X的联合分布P(X,Y),进而通过P(Y∣X)=P(X,Y)|P(X)计算得出结果判定。

基于贝叶斯定理的贝叶斯模型是一类简单常用的分类算法。在「假设待分类项的各个属性相互独立」的情况下,构造出来的分类算法就称为朴素的,即朴素贝叶斯算法。

所谓「朴素」,是假定所有输入事件之间是相互独立。进行这个假设是因为独立事件间的概率计算更简单。

朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。

属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。

3.K最近邻算法

邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

KNN算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k值是预测精度的一个关键因素,无论是分类还是回归,衡量邻居的权重都非常有用,较近邻居的权重比较远邻居的权重大。

KNN方法思路简单,易于理解,易于实现,无需估计参数。

·该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数

·该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

·惰性学习

KNN算法是懒散学习方法(lazylearning,基本上不学习),一些积极学习的算法要快很多。

4.AdaBoost算法

Boosting是一种从一些弱分类器中创建一个强分类器的集成技术。它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误。不断添加模型,直到训练集完美预测或已经添加到数量上限。

AdaBoost是为二分类开发的第一个真正成功的Boosting算法,同时也是理解Boosting的最佳起点。

AdaBoost算法是AdaptiveBoost的简称,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

AdaBoost算法流程:

1.先通过对N个训练样本的学习得到第一个弱分类器;

2.将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器;

3.将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

4.最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

以做错题为例做一个形象的比喻:

做正确的题,下次少做点,反正都会了;

做错的题,下次多做点,集中在错题上;

随着学习的深入,做错的题会越来越少。

·很好的利用了弱分类器进行级联;

·可以将不同的分类算法作为弱分类器;

·AdaBoost具有很高的精度;

·相对于bagging算法和RandomForest算法,AdaBoost充分考虑的每个分类器的权重;

·AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定;

·数据不平衡导致分类精度下降;

·训练比较耗时,每次重新选择当前分类器最好切分点。

5.PageRank算法

PageRank,网页排名,又称佩奇排名。谷歌的两位创始人,佩奇(LarryPage)和布林(SergeyBrin)开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。

于是PageRank的核心思想就诞生了,非常简单:

如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高;

如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。

·旧的页面等级会比新页面高。由于即使是非常好的新页面也不会有非常多上游链接,除非它是某个网站的子网站。

6.EM算法(期望最大化算法)

EM算法包含两个步骤,E步和M步。E步也就是我们求期望的步骤,M步将E步所求的期望最大化,重复E步和M步直到收敛,也就是我们估计的模型参数不再发生变化或者变化幅度很小,这就是EM算法的基本概括。

以分菜为例做一个形象的比喻。

比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直法代地执行下去,直到大家看不出两个碗所究纳的菜有什么分量上的不同为止。EM算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。

·聚类;

·算法计算结果稳定、准确;

·EM算法自收敛,既不需要事先设定类别,也不需要数据间的两两比较合并等操作。

·对初始化数据敏感;

·EM算法计算复杂,收敛较慢,不适于大规模数据集和高维数据;

·当所要优化的函数不是凸函数时,EM算法容易给出局部最优解,而不是全局最优解。

7.Apriori算法

Apriori算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由RakeshAgrawal和RamakrishnanSkrikant提出的,例如著名的购物篮问题中顾客在买完尿布之后通常会买啤酒。作为第一个关联规则挖掘算法,它开创性的使用了基于支持度的剪枝技术。

它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L2,如此下去,直到不能找到k-项集。每找一个Lk需要一次数据库扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质,用于压缩搜索空间。其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的,二是非频繁项集的所有父集都是非频繁的。

Apriori算法过程分为两个步骤:

第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;

第二步利用频繁项集构造出满足用户最小信任度的规则。

·适合稀疏数据集;

·算法原理简单,易实现;

·适合事务数据库的关联规则挖掘。

·可能产生庞大的候选集;

·算法需多次遍历数据集,算法效率低,耗时。

8.SVM算法

支持向量机,英文全称“SupportVectorMachines”(简称SVM),它是机器学习中最常用的一种“分类算法”,可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

对于支持向量机而言有三个重要构件,分别是:最大间隔、高维映射、核函数。

上述三者是SVM支持向量机的核心,用一句话来总结这三个部件的作用,那就是“最大间隔是标尺,高维映射是关键,最终结论看核函数”。

·使用核函数可以向高维空间进行映射;

·使用核函数可以解决非线性的分类;

·分类思想很简单,就是将样本与决策面的间隔最大化。

·分类效果较好

·SVM算法对大规模训练样本难以实施;

·用SVM解决多分类问题存在困难;

·对缺失数据敏感,对参数和核函数的选择敏感。

9.K均值聚类算法

k均值聚类算法(k-meansclusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

·是解决聚类问题的一种经典算法,简单、快速;

·对处理大数据集,该算法保持可伸缩性和高效性;

·当簇接近高斯分布时,它的效果较好。

·在K-means算法中K是事先给定的,K值的选定难以估计;

·在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果(可能会陷入死循环);

·若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感)

10.线性回归算法LinearRegression

线性回归算法(LinearRegression)的建模过程就是使用数据点来寻找最佳拟合线。公式,y=mx+c,其中y是因变量,x是自变量,利用给定的数据集求m和c的值。

线性回归又分为两种类型,即简单线性回归(simplelinearregression),只有1个自变量;多变量回归(multipleregression),至少两组以上自变量。

·思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效;

·是许多强大的非线性模型的基础;

·线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析;

THE END
1.算法笔记(三)算法学习技巧从开始学习算法已经有两三个多月的时间了,从简单到深入层次展开,层层优化,对算法的理解也在逐渐加深,不在那么片面,虽然现在还是片面一些,对它的了解也仅仅知道冰山一角,还有很多的内容需要我们去学习去挖掘。 思路 在学习前我们要尽可能快速阅读一遍要学习的书籍,这样不仅仅让我们知道了有哪些内容需要学习,同时也在https://www.code456.com/article/3598351.html
2.求给个算法学习路线?主要也就两大块内容:常用算法 和 数据结构。可以从最简单的语法开始。一、语言基础 单纯学习语言未免太https://www.zhihu.com/question/505366830/answer/2279533801
3.金三银四跳槽季,为了年后offer,我竟然撸完了这50场1000多道面经3. 操作系统层面怎么实现互斥锁 4. 数据段组成 5. 网络tcp建立与释放 6. tcp长连接 heartbeat 7. tcp半连接 8. 图的遍历算法 迪杰斯特拉算法 9. 上楼梯 10. 64匹马赛跑,8个跑道,选出最快4匹马 11. java单例模式一套 12. java多线程原子锁,cas机制,aba问题 https://maimai.cn/article/detail?fid=1589559958&efid=HMnVzUsEaNASGCiWLCQB4Q
4.从0开始机器学习手把手用Python实现梯度下降法!机器学习课程也上了一段时间了,今天就带大家从 0 开始手把手用 Python 实现第一个机器学习算法:单变量梯度下降(Gradient Descent)! 我们从一个小例子开始一步步学习这个经典的算法。 一、如何最快下山? 在学习算法之前先来看一个日常生活的例子:下山。想象一下你出去旅游爬山,爬到山顶后已经傍晚了,很快太阳就会落https://www.jianshu.com/p/d298adb3c089
5.17个机器学习的常用算法根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。 https://aidc.shisu.edu.cn/78/aa/c13626a161962/page.htm
6.Nature:AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法另一篇文章也涉及一种机器学习算法,其能够确定急诊室病人的CT扫描是否显现出中风、颅内出血或其他重要神经疾病的迹象。对于中风患者来说,每一分钟都很重要;治疗耽误的时间越长,结果就越糟。新算法的准确性堪比人类专家,而且比人类专家快150倍。一个更快的诊断有助于医生对最紧急病例进行快速分类,并由人类放射科医生https://www.medsci.cn/article/show_article.do?id=97c6e419443f
7.大学四年,从小白到大神,全网最硬核算法学习攻略,不接受反驳你不需要把它学的很精通,但是你要懂一些基本的递归题,知道递归是怎么一回事,例如最简单的斐波那契数列得会用递归做吧?阶乘也会吧(虽然不是最优解)。 所以,死磕入门数据结构,可以学习下一些算法思想,而递归,你必须得入门,至于动态规划、回溯,我觉得慢点学也没有,可以后面刷题遇到时在学,而枚举、贪心,相对比较简https://blog.csdn.net/xxue345678/article/details/131645896
8.整十数加减整十数教学设计(精选15篇)不足:本节课,对于学生来说是很简单的一节课,在讲授过程中我对于算法的探究部分,以及对算法的最优化处理还有待加强,我们既要尊重学生的个体差异,但我们也要帮助学生去学习更科学有效的算法。这个过程不能急于求成,一定要细心引导,让学生去主动接受。 https://xiaoxue.ruiwen.com/jiaoxuesheji/348088.html
9.运筹学教学十分钟快速掌握最大流算法(附C++代码及算例)如上所示,我们输入的是第一个网络图,算法代码运行后的结果如第二个网络图所示,其中边上流量值如11/16,表示这条边的最大容量为16,而从s到t,这条边的路径能通过的最大流量为11。 上述代码仅供分享交流学习用,如有需要复制下面链接自取 ↓↓↓ http://paste.ubuntu.com/25584352/ https://cloud.tencent.com/developer/article/1103608
10.算法数据结构体系学习班马士兵教育官网当你想试试自己的学习状态,你可以每周三晚8点来参加算法直播课,都是大厂最新考的、不重复的算法题。总之,跟课+练课上题+记笔记总结,这样进步最快。仔细阅读上面的材料,然后开始看课,练题。看课过程中任何困惑求解答、debug不出错误、见到新的算法面试题目不会做,都可以官网提问或者找到班主任联系我。 如何提问https://www.mashibing.com/course/339
11.书单豆瓣高分&全网热评的算法神作对于初学者来说,学习算法的旅途是略显无聊与苦涩的,他们亟需有趣、实用的算法读物。 漫画算法系列图书和《图解算法小册》通过漫画和图解的方式将算法的本质呈现在读者面前,好玩又有趣,有效降低了学习算法的门槛,可以顺利引领我们进入算法殿堂,非常适合想学算法却因其枯燥复杂而望之生畏的朋友们一看。 http://www.broadview.com.cn/article/420385
12.《常用算法之智能计算(三)》:机器学习计算在给出机器学习计算各种算法之前,最好是先研究一下什么是机器学习和如何对机器学习进行分类,才能更好的理解和掌握一些具体的机器学习算法并将其用于实际问题的计算和处理。 学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有自己不同的看法和说法。比如,http://www.kepu.net/blog/zhangjianzhong/201903/t20190327_475625.html
13.速度最快的三维重建神经网络三维重建算法速度最快的三维重建神经网络 三维重建算法 三维重建方法总结 1传统方法 2传统方法和深度学习结合 3深度学习方法 1 基于传统多视图几何的三维重建算法 传统的三维重建算法按传感器是否主动向物体照射光源可以分为主动式和被动式 两种方法。这些年,也有不少研究直接基于消费级的 RGB-D 相机进行三维重建,如基于微软的 https://blog.51cto.com/u_16099168/6881261
14.人民日报:用好算法,迈向智能社会深度学习算法,打开人工智能突破口 当前,深度学习是各类算法中最具代表性的一种。深度学习是一类特殊的机器学习算法,其概念源于人工神经网络,目的是探索和模拟人的思维规律,仿照脑神经系统结构与信息处理机制,构建智能软件系统。深度学习通过学习算例数据的内在规律和表示,使计算机能够像人一样有分析能力,为人工智能质的飞https://kjt.shaanxi.gov.cn/kjzx/mtjj/276381.html
15.如何面对海量知识进行非恐慌式非焦虑式学习霜花香似海① 在做每一步的选择的时候,都采取当前状态的最优的选择,前提是当前状态,也即是在我们学习新知识的时候,选择当前自己学习最能学到的,最能学习进到自己的知识体系里的知识(学习是逆人性,学习的都是自己不知道的,所以学习自己能最快接受的知识,能克服一些对未知的恐惧)。就像文中所说,贪婪算法虽然不是全局最优https://www.cnblogs.com/liyy7520/p/12206226.html