机器学习10大经典算法详解

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2022.12.28重庆

本文归纳了机器学习的10大算法,并分别整理了各算法的优缺点及主要特征,供大家学习参考。读完本文,你将掌握以下机器学习10大算法的基本概念及主要适用情况,是机器学习过程不可错过的基础概念篇。

本文涵盖的机器学习领域10大算法包括:

·决策树算法

·朴素贝叶斯算法

·K最近邻算法

·AdaBoost算法

·PageRank算法

·EM算法(期望最大化算法)

·Apriori算法

·SVM算法

·K均值聚类算法

·线性回归算法LinearRegression

下面我们将具体展开介绍。

1.决策树算法

决策树,是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层就是根节点。

决策树的生成过程主要分为以下3个部分:

1.特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。

2.决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式

3.剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

树模型和线性模型之间的区别

树形模型是一个一个特征进行处理,线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率闻值的划分为一类,小于某一概率闻值的为另一类,而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除非对x进行多维映射),而决策树可以找到非线性分割。

而树形模型更加接近人的思维方式,可以产生可视化的分类规则,产生的模型具有可解释性(可以抽取规则)。树模型拟合出来的函数其实是分区间的阶梯函数。

算法优点:

·学习以及预测的速度都非常快;

·并且树模型适用于各种各样的问题,不需要对数据进行任何特殊的处理。

算法缺点:

·对连续性的字段比较难预测。

·容易出现过拟合。

·对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

决策树的典型算法包括ID3,C4.5,CART等,下面重点介绍一下C4.5和CART。

C4.5

国际权威的学术组织,数据挖掘国际会议ICDM(theIEEEInternationalConferenceonDataMining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一。C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2)在树构造过程中进行剪枝;

3)能够完成对连续属性的离散化处理;

4)能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

CART

CART(ClassificaTIonandRegressionTree)分类回归树是一种决策树构建算法。不同于ID3与C4.5,CART为一种二分决策树,是满二叉树。CART算法由Breiman等人在1984年提出,它采用与传统统计学完全不同的方式构建预测准则,它是以二叉树的形式给出,易于理解、使用和解释。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。

CART算法既可以处理离散型问题,也可以处理连续型问题。这种算法在处理连续型问题时,主要通过使用二元切分来处理连续型变量,即特征值大于某个给定的值就走左子树,或者就走右子树。

CART优点:

·可以生成可以理解的规则;

·计算量相对来说不是很大;

·可以处理连续和种类字段;

·决策树可以清晰的显示哪些字段比较重要。

CART缺点:

·对连续性的字段比较难预测;

·当类别太多时,错误可能就会增加的比较快;

·一般的算法分类的时候,只是根据一个字段来分类。

2.朴素贝叶斯算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯(NaiveBayes)分类是贝叶斯分类中最简单,也是常见的一种分类方法。

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类,即对于给出的待分类样本,求解在此样本出现的条件下各个类别出现的概率,哪个最大,就认为此待分类样本属于哪个类别。

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系(决策函数Y=f(X)或者条件分布P(Y∣X))。但朴素贝叶斯是生成方法,它直接找出特征输出Y和特征X的联合分布P(X,Y),进而通过P(Y∣X)=P(X,Y)|P(X)计算得出结果判定。

基于贝叶斯定理的贝叶斯模型是一类简单常用的分类算法。在「假设待分类项的各个属性相互独立」的情况下,构造出来的分类算法就称为朴素的,即朴素贝叶斯算法。

所谓「朴素」,是假定所有输入事件之间是相互独立。进行这个假设是因为独立事件间的概率计算更简单。

朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。

属性独立性的条件同时也是朴素贝叶斯分类器的不足之处。数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。

3.K最近邻算法

邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

KNN算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k值是预测精度的一个关键因素,无论是分类还是回归,衡量邻居的权重都非常有用,较近邻居的权重比较远邻居的权重大。

KNN方法思路简单,易于理解,易于实现,无需估计参数。

·该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数

·该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

·惰性学习

KNN算法是懒散学习方法(lazylearning,基本上不学习),一些积极学习的算法要快很多。

4.AdaBoost算法

Boosting是一种从一些弱分类器中创建一个强分类器的集成技术。它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误。不断添加模型,直到训练集完美预测或已经添加到数量上限。

AdaBoost是为二分类开发的第一个真正成功的Boosting算法,同时也是理解Boosting的最佳起点。

AdaBoost算法是AdaptiveBoost的简称,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

AdaBoost算法流程:

1.先通过对N个训练样本的学习得到第一个弱分类器;

2.将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器;

3.将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

4.最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

以做错题为例做一个形象的比喻:

做正确的题,下次少做点,反正都会了;

做错的题,下次多做点,集中在错题上;

随着学习的深入,做错的题会越来越少。

·很好的利用了弱分类器进行级联;

·可以将不同的分类算法作为弱分类器;

·AdaBoost具有很高的精度;

·相对于bagging算法和RandomForest算法,AdaBoost充分考虑的每个分类器的权重;

·AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定;

·数据不平衡导致分类精度下降;

·训练比较耗时,每次重新选择当前分类器最好切分点。

5.PageRank算法

PageRank,网页排名,又称佩奇排名。谷歌的两位创始人,佩奇(LarryPage)和布林(SergeyBrin)开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。

于是PageRank的核心思想就诞生了,非常简单:

如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高;

如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高。

·旧的页面等级会比新页面高。由于即使是非常好的新页面也不会有非常多上游链接,除非它是某个网站的子网站。

6.EM算法(期望最大化算法)

EM算法包含两个步骤,E步和M步。E步也就是我们求期望的步骤,M步将E步所求的期望最大化,重复E步和M步直到收敛,也就是我们估计的模型参数不再发生变化或者变化幅度很小,这就是EM算法的基本概括。

以分菜为例做一个形象的比喻。

比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把菜分到两个碗中,然后观察是否一样多,把比较多的那一份取出一点放到另一个碗中,这个过程一直法代地执行下去,直到大家看不出两个碗所究纳的菜有什么分量上的不同为止。EM算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。

·聚类;

·算法计算结果稳定、准确;

·EM算法自收敛,既不需要事先设定类别,也不需要数据间的两两比较合并等操作。

·对初始化数据敏感;

·EM算法计算复杂,收敛较慢,不适于大规模数据集和高维数据;

·当所要优化的函数不是凸函数时,EM算法容易给出局部最优解,而不是全局最优解。

7.Apriori算法

Apriori算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由RakeshAgrawal和RamakrishnanSkrikant提出的,例如著名的购物篮问题中顾客在买完尿布之后通常会买啤酒。作为第一个关联规则挖掘算法,它开创性的使用了基于支持度的剪枝技术。

它使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L2,如此下去,直到不能找到k-项集。每找一个Lk需要一次数据库扫描。为提高频繁项集逐层产生的效率,一种称作Apriori性质的重要性质,用于压缩搜索空间。其运行定理在于一是频繁项集的所有非空子集都必须也是频繁的,二是非频繁项集的所有父集都是非频繁的。

Apriori算法过程分为两个步骤:

第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;

第二步利用频繁项集构造出满足用户最小信任度的规则。

·适合稀疏数据集;

·算法原理简单,易实现;

·适合事务数据库的关联规则挖掘。

·可能产生庞大的候选集;

·算法需多次遍历数据集,算法效率低,耗时。

8.SVM算法

支持向量机,英文全称“SupportVectorMachines”(简称SVM),它是机器学习中最常用的一种“分类算法”,可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

对于支持向量机而言有三个重要构件,分别是:最大间隔、高维映射、核函数。

上述三者是SVM支持向量机的核心,用一句话来总结这三个部件的作用,那就是“最大间隔是标尺,高维映射是关键,最终结论看核函数”。

·使用核函数可以向高维空间进行映射;

·使用核函数可以解决非线性的分类;

·分类思想很简单,就是将样本与决策面的间隔最大化。

·分类效果较好

·SVM算法对大规模训练样本难以实施;

·用SVM解决多分类问题存在困难;

·对缺失数据敏感,对参数和核函数的选择敏感。

9.K均值聚类算法

k均值聚类算法(k-meansclusteringalgorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

·是解决聚类问题的一种经典算法,简单、快速;

·对处理大数据集,该算法保持可伸缩性和高效性;

·当簇接近高斯分布时,它的效果较好。

·在K-means算法中K是事先给定的,K值的选定难以估计;

·在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果(可能会陷入死循环);

·若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感)

10.线性回归算法LinearRegression

线性回归算法(LinearRegression)的建模过程就是使用数据点来寻找最佳拟合线。公式,y=mx+c,其中y是因变量,x是自变量,利用给定的数据集求m和c的值。

线性回归又分为两种类型,即简单线性回归(simplelinearregression),只有1个自变量;多变量回归(multipleregression),至少两组以上自变量。

·思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效;

·是许多强大的非线性模型的基础;

·线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析;

THE END
1.人工智能论文研究探索机器学习与深度学习的前沿应用在当今这个快速发展的时代,人工智能(AI)已经成为科技领域的一个热点话题。随着AI技术的不断进步,它在各个行业和领域中的应用日益广泛,从而激发了大量关于AI论文的研究。以下是对一些最新的人工智能论文研究进行的概述。 机器学习与数据分析 在过去几年中,机器学习技术得到了巨大的发展,这主要归功于大数据和云计算服务https://www.206sk8xl.cn/xing-ye-zi-xun/627985.html
2.机器学习:开启智能未来的钥匙腾讯云开发者社区在风控方面,银行通过大数据技术,监控账户的交易参数,分析持卡人的用户行为,从而判断该持卡人的信用级别。机器学习算法可以分析大量的交易数据,识别异常交易模式,及时发现欺诈行为,保护金融机构和客户的利益。 (四)自然语言处理、图像和视频处理、医疗保健、金融和商业、交通运输、农业等多领域应用 https://cloud.tencent.com/developer/article/2478495
3.物理学中的机器学习:从数据到发现的新范式机器学习(ML)是人工智能(AI)的一部分,致力于开发能够从数据中学习、无需明确编程便能做出预测或决策的算法。过去几十年里,机器学习已经成为多个领域的强大工具,改变了医疗、金融和零售等行业。在物理学中,机器学习的应用正在产生深远影响,它提高了数据分析的效率,推动了模式识别、预测建模,甚至新理论的发现https://baijiahao.baidu.com/s?id=1814759329987375988&wfr=spider&for=pc
4.机器学习算法的进步:从传统到现代机器学习(Machine Learning)是人工智能(Artificial Intelligence)的一个分支,它涉及到计算机程序能够自动学习和改进其表现的方法。机器学习的目标是使计算机能够自主地从数据中学习,而不是被人们明确编程。这种技术已经广泛应用于各个领域,例如图像识别、自然语言处理、推荐系统等。 https://blog.csdn.net/universsky2015/article/details/135809767
5.2020届计算机科学方向毕业设计(论文)阶段性汇报深度学习在视频分析中的应用 在本次汇报中,我将介绍毕设课题选定的视频分析具体任务:时序动作检测(Temporal Action Proposal)的相关内容,包括任务背景、最近研究成果、数据情况以及切入点等。我还将汇报过去一阶段的工作内容和下一阶段的工作计划。 范舟 基于强化学习的推荐与广告合并算法设计 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
6.从零开始:机器学习的数学原理和算法实践本书从数学基础知识入手,通过前3章的介绍,帮助读者轻松复习机器学习涉及的数学知识;然后,通过第4~第13章的介绍,逐步讲解机器学习常见算法的相关知识,帮助读者快速入门机器学习;最后,通过第14章的综合实践,帮助读者回顾本书内容,进一步巩固所学知识。 本书适合对机器学习感兴趣但数学基础比较薄弱的读者学习,也适合作为https://www.epubit.com/bookDetails?id=UB77b8ad3a2522b
7.4种方法教你利用Python发现数据的规律python这样我们就可以发现数据的规律,例如哪些因素会影响购买决策等。需要注意的是,这只是一个简单的示例,实际应用中需要根据具体问题选择合适的机器学习算法和特征工程方法。 到此这篇关于4种方法教你利用Python发现数据的规律的文章就介绍到这了,更多相关Python数据规律内容请搜索脚本之家以前的文章或继续浏览下面的相关文章https://www.jb51.net/article/278111.htm
8.人工智能技术导论——机器学习与知识发现51CTO博客而分别基于这三个要素, 就可以对机器学习进行分类。例如,由于信息有语言符号型与数值数据型之分, 因此基于信息,机器学习可分为符号学习和数值学习; 而基于知识的形式,机器学习又可分为规则学习和函数学习等; 若基于发现的逻辑方法, 则机器学习可分为归纳学习、演绎学习和类比学习等等。 这样的分类也就是分别从“https://blog.51cto.com/u_15127700/4561036
9.Python机器学习基础教程如何衡量应用是否成功? 机器学习解决方案与我的研究或商业产品中的其他部分是如何相互影响的? 从更大的层面来看,机器学习算法和方法只是解决特定问题的过程中的一部分,一定要始终牢记整个项目的大局。许多人浪费大量时间构建复杂的机器学习解决方案,最终却发现没有解决正确的问题。 当深入研究机器学习的技术细节时(本书https://www.ituring.com.cn/book/tupubarticle/19667
10.机器学习及其应用通过脑部扫描发现肿瘤 自动分类新闻 论坛自动标记恶评 基于多性能指标来预测公司下一年的收入 对应用语音命令做出反应 … 机器学习算法基本类型 常见算法 按是否在人类监督下训练分类 监督学习 在监督学习中,用来训练算法的训练数据包含了答案,称为标签。 分类就是一个典型的监督学习,例如垃圾邮件过滤器一些回归算法也可https://www.jianshu.com/p/11d1323d028e
11.算法岗还是工程岗?关于职业选择的一点小思考职业发展以机器学习平台研发工程师-Data进行举例,首先你至少要精通或者熟悉一门编程语言(重点,不要贪杯),其次就是数据结构与算法要学好(这里所谓的学好并不是说你在某某平台刷了多少题,更重要的是要了解算法在生活中的应用场景,比如对于栈这种数据结构,大家在学校里可能就只知道栈可以解决括号匹配问题,但你是否知道你在日常https://ac.nowcoder.com/discuss/995242?type=9&order=0&page=1
12.数字化观察(100)华夏银行吴永飞等:数字金融领域小样本学习技术然而,产业数字金融风控所使用的数据要素情况不同于以往,特别是对公客户场景化、生态化细分后,数据样本量很小,难以满足风控建模的需要;而小样本学习目前在机器学习与数据挖掘领域仍属世界性难题。本文从小样本学习技术创新入手,深入探索数字经济时代下面向产业数字金融的小样本学习应用研究与实践。https://bank.hexun.com/2022-05-31/206058282.html
13.《常用算法之智能计算(三)》:机器学习计算从更广泛的意义上来看,机器学习是人工智能的一个子集。人工智能旨在使计算机更加智能化,而机器学习已经证明如何做到这一点。简而言之,机器学习是人工智能的应用,通过应用从数据中反复学习得到算法,可以改进计算机的功能,而无需进行明确的编程。 在给出机器学习计算各种算法之前,最好是先研究一下什么是机器学习和如何对http://www.kepu.net/blog/zhangjianzhong/201903/t20190327_475625.html