机器学习常用的十大算法人工智能

2.适用于需要得到有分类概率额场景;

3.对小数据噪声的鲁棒性好,不会收轻微的多重共线性的影响

缺点:

1.容易欠拟合,分类精度可能不高;

2.数据有缺失和特征很大的时候表现不好。

2.支持向量机

对于两类线性可分学习任务,SVM找到一个间隔最大的超平面将两类样本分开,最大间隔能够保证该超平面具有最好的泛化能力。

1.可以解决小样本情况下的ML问题;

2.可以提高泛化性能

3.可以解决高维问题,避免维数灾难

4.可以解决非线性问题

参数C和g的选择对分类性能的影响:

C是惩罚系数,C越大,交叉validation高,容易过学习;

g是核函数的到达0的速率,g越小,函数下降快,交叉validation高,也容易造成过学习。

1.对缺失数据敏感;

1)解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。

2)仅仅使用一部分支持向量来做超平面的决策,无需依赖全部数据。

3)有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。

4)样本量不是海量数据的时候,分类准确率高,泛化能力强。

SVM算法的主要缺点有:

1)如果特征维度远远大于样本数,则SVM表现一般。

2)SVM在样本量非常大,核函数映射维度非常高时,计算量过大,不太适合使用。(不适用于大数据集)

3)非线性问题的核函数的选择没有通用标准,难以选择一个合适的核函数。

4)SVM对缺失数据敏感。

2)在特征数非常多的情况下,或者样本数远小于特征数的时候,使用线性核,效果已经很好,并且只需要选择惩罚系数C即可。

3)在选择核函数时,如果线性拟合不好,一般推荐使用默认的高斯核'rbf'。这时我们主要需要对惩罚系数C和核函数参数γ进行艰苦的调参,通过多轮的交叉验证选择合适的惩罚系数C和核函数参数γ。

3.决策树

1.计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;

2.数据预处理阶段比较简单,且可以处理缺失数据;

3.能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树;

4.是一个白盒模型,给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式

6.可以对有许多属性的数据集构造决策树。

1.对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性;

2.对噪声数据较为敏感;

3.容易出现过拟合问题;

5.处理缺失数据时的困难

决策树优点:

1)简单直观,生成的决策树很直观。

2)基本不需要预处理,不需要提前归一化,处理缺失值。

3)使用决策树预测的代价是O(log_2m)。m为样本数。

4)既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

5)可以处理多维度输出的分类问题。

6)相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释

7)可以交叉验证的剪枝来选择模型,从而提高泛化能力。

8)对于异常点的容错能力好,健壮性高。

决策树算法的缺点:

1)决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

2)决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

3)寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。

4)有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。

5)如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

4.KNN算法

一种惰性分类方法,从训练集中找出k个最接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,将其赋给测试对象。

1.简单有效,容易理解和实现;

2.重新训练的代价较低(类别体系的变化和训练集的变化);

4.错误率渐进收敛于贝叶斯错误率,可作为贝叶斯的近似;

5.适合处理多模分类和多标签分类问题;

6.对于类域的交叉或重叠较多的待分类样本集较为适合;

1.是懒散学习方法,比一些积极学习的算法要慢;

2.计算量比较大,需对样本点进行剪辑;

3.对于样本不平衡的数据集效果不佳,可采用加权投票法改进;

4.k值的选择对分类效果有很大影响,较小的话对噪声敏感,需估计最佳k值。

5.可解释性不强,计算量大。

KNN的主要优点有:

1)理论成熟,思想简单,既可以用来做分类也可以用来做回归

2)可用于非线性分类

4)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感

5)由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合

6)该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN的主要缺点有:

1)计算量大,尤其是特征数非常多的时候

2)样本不平衡的时候,对稀有类别的预测准确率低

3)KD树,球树之类的模型建立需要大量的内存

4)使用懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢

5)相比决策树模型,KNN模型可解释性不强

5.朴素贝叶斯算法

贝叶斯分类器的分类原理是利用各个类别的先验概率,再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类别。

1.数学基础坚实,分类效率稳定,容易解释;

2.所需估计的参数很少,对缺失数据不太敏感;

3.无需复杂的迭代求解框架,适用于规模巨大的数据集。

2.需要知道先验概率,分类决策存在错误率。

朴素贝叶斯的主要优点有:

1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。

3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。

朴素贝叶斯的主要缺点有:

2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。

4)对输入数据的表达形式很敏感。

6.随机森林算法

1)训练可以高度并行化,对于大数据时代的大样本训练速度有优势。最主要的优点。

2)由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

3)在训练后,可以给出各个特征对于输出的重要性

4)由于采用了随机采样,训练出的模型的方差小,泛化能力强。

6)对部分特征缺失不敏感。

RF的主要缺点有:

1)在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

2)取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

7.AdaBoost算法

提升方法是从弱学习算法出发,反复学习,得到一系列的弱分类器(即基本分类器),然后组合这些弱分类器,构成一个强分类器,大多数的提升方法都是改变训练数据集的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。

1.分类精度高;

2.可以使用各种方法构建子分类器,Adaboost算法提供的是框架;

3.简单,且不用做特征筛选;

4.不会造成overfitting。

1.对分类错误的样本多次被分错而多次加权后,导致权重过大,影响分类器的选择,造成退化问题;(需改进权值更新方式)

2.数据不平衡问题导致分类精度的急剧下降;

3.算法训练耗时,拓展困难;

4.存在过拟合,鲁棒性不强等问题。

Adaboost的主要优点有:

1)Adaboost作为分类器时,分类精度很高

2)在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。

3)作为简单的二元分类器时,构造简单,结果可理解。

4)不容易发生过拟合

Adaboost的主要缺点有:

1)对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。

8.GBDT

GBDT主要的优点有:

1)可以灵活处理各种类型的数据,包括连续值和离散值。

3)使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如Huber损失函数和Quantile损失函数。

GBDT的主要缺点有:

1)由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

9XGBoost算法

1.XGBoost与GBDT相比,其优势:

将树模型的复杂度加入到正则项中,来避免过拟合,因此泛化性能会优于GBDT。

损失函数用泰勒展开式展开,同时用到了一阶和二阶导数,可以加快优化速度。

GBDT只支持CART作为基学习器,XGBoost还支持线性分类器作为基学习器。

引进了特征子采样,像随机森林那样,既能避免过拟合,又能减少计算。

在寻找最优分割点时,考虑到传统的贪心算法效率较低,实现了一种近似贪心算法,用来加速和减少内存小号,除此之外,还考虑了稀疏数据集合缺失值的处理。

XGBoost支持并行处理。XGBoost的并行不是模型生成的并行,而是在特征上的并行,将特征排序后以block的形式存储在内存中,在后面迭代重复使用这个结构。这个block也使得并行化成为了可能,其次在节点分裂时,计算每个特征的增益,最终选择增益最大的那个特征去做分割,那么各个特征的增益计算就可以开多线程进行。

2.与lightGBM相比的不足点:

XGBoosting采用level-wise生成决策树,同时分裂同一层的叶子,从而进行多线程优化,不容易过拟合,但很多叶子节点的分裂增益较低,没必要进行跟进一步的分裂,这就带来了不必要的开销;LightGBM采用深度优化,leaf-wise生长策略,每次从当前叶子中选择增益最大的结点进行分裂,循环迭代,但会生长出更深的决策树,产生过拟合,因此引入了一个阈值进行限制,防止过拟合。

10.人工神经网络

1.分类的准确度高,并行分布处理能力强,分布存储及学习能力强;

2.对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。

2.不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;

THE END
1.如何正确学习?(书籍\视频\网站都推荐了)不用说,很美,这本书是我今年刚入手看的,只能用强烈推荐来形容,在这本书里,学到了挺多技巧,里面列举的题也不是特别难,目前看了 80%,真香。刚开始我听别人说如果要准备面试谷歌什么的建议看,我以为很难,迟迟没买来看,不过,我看的过程中,感觉还好,相信你也能看的懂,想学习算法、刷题的,强烈推荐。 https://blog.csdn.net/m0_37907797/article/details/103202911
2.超级干货:到底该如何学习算法?但是对大多数本科同学,尤其是第一次接触算法的同学,《算法导论》实在不是一个好的教材。但很可惜,很多同学在学习中有上面的两个毛病,既过度路径依赖,别人说《算法导论》好,学习算法要走学《算法导论》这个路径,自己就不探索其他更适合自己的学习路径了,一头扎进《算法导论》里;同时还“完美主义”的倾向,对于《https://baijiahao.baidu.com/s?id=1629846079532222044&wfr=spider&for=pc
3.如何学习算法云飞扬°目前找工作竞争越来越大,很多大的公司都很重视应聘者的算法能力,所以掌握好算法尤为重要。 这里说一下我认为算法应该怎么刷。 1.打牢基本功 在刷算法的初级阶段,我们应该掌握好基础知识,包括常用的数据结构和算法。 数据结构:数组、栈、链表、图、散列表、队列、树、堆 https://www.cnblogs.com/yunfeiyang2020/p/14088812.html
4.c语言算法怎么学编程是一项实践性很强的技能,因此多做练习是提高编程能力的关键,你可以从简单的练习题开始,逐渐增加难度,在解决实际问题时,尝试将所学的C语言知识应用于算法设计和实现,你还可以通过参加编程竞赛、完成项目等方式来提高自己的编程水平。 3、学习常用算法和数据结构 https://www.kdun.com/ask/412936.html
5.轻松看懂机器学习十大常用算法通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。 https://mse.xauat.edu.cn/info/1017/1739.htm
6.人民日报:用好算法,迈向智能社会“算法”即算的法则,它起源于数学,指解决某些“类数学”问题规范而完整的方法。人们熟悉的“加减乘除”、欧几里得《几何原本》里的演绎推理基本法则等,都属于算法。中国古代数学有深厚的算法传统,《周髀算经》用文字记载勾股算法,三国时期刘徽提出圆周率的割圆术算法,后来祖冲之由此计算出圆周率为3.1415926。现代逻辑学,https://kjt.shaanxi.gov.cn/kjzx/mtjj/276381.html
7.TensorFlow机器学习常用算法解析和入门学过概率的同学一定都知道贝叶斯定理,这个在250多年前发明的算法,在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相https://www.w3cschool.cn/tensorflow/tensorflow-s8uq24ti.html
8.6个超酷的练习算法,学习编程的网站如果您已经编程了一段时间,想学习一种新的语言,学习一种新的思维方式,那就去运动吧! 总结 在本文中,我分享了6个超酷的网站来练习算法和学习编程! 我个人认为您不需要学习太多,如果想在面试之前进行练习,请访问Skilled / Hackerrank / Leetcode。 或者,如果您需要学习新的语言,请选择运动。https://news.51cto.com/art/202006/618315.htm
9.吴师兄学算法五分钟学算法吴师兄学算法(www.cxyxiaowu.com)提供许多数据结构与算法学习的基础知识, 涵盖 LeetCode 题解、剑指 Offer 题解、数据结构等内容。https://www.cxyxiaowu.com/
10.超详细算法岗的学习路线大总结!本文转载自其他平台,作者:苏学算法,文章内容略有删改。 12 收藏分享 回复讨论接收动态 共1 个回复 最热 幸运鹅 来自四川 2022-11-28 最近几天怎么这么多新号转载多啊,水经验? 1 回复 收藏 分享 添加回复 1 收藏次数 84 参与人数 1 浏览次数 1.5k https://leetcode.cn/circle/discuss/SX3aa6/
11.从0开始掌握一门算法,需要花多少时间?其次,算法真的很复杂。动态规划、搜索、贪心、递归、计算几何、数学、图论、数据结构、字符串等大量的算法种类中,没有一种可以迅速学成,没有捷径,只能苦修。 再者,算法不够新潮。我们能看到语言一直在换,今天Java,明天Python,后天Go,掌握十几种语言足以填满自己的简历。可算法却不能,他们万年如一,就在那里,不变https://dy.163.com/v2/article/detail/ECV11K8J0511D3QS.html
12.统计学习方法(豆瓣)统计自然语言处理(第2版)8.6 动手学深度学习9.2 数据科学实战8.0 算法导论(原书第3版)9.3 当前版本有售· ··· 得到 9.90元 购买电子书 京东商城 22.50元 购买纸质书 + 加入购书单 在线试读 : 得到 在线试读 谁读这本书?··· 二手市场· ···https://book.douban.com/subject/10590856/
13.码农的数学和算法入门腾讯云开发者社区正如本书中,以作者黄申多年的工作经历来看,数学学得好不好将会直接决定一个程序员有没有发展潜力。往大了说,数学是一种思维模式,考验的是一个人归纳、总结和抽象的能力。 将这个能力放到程序员的世界里,其实就是解决问题的能力。往小了说,不管是数据结构与算法还是程序设计,其实底层很多原理或者思路都源自数学,所https://cloud.tencent.com/developer/article/1821198
14.科学网—[转载]基于深度强化学习的六足机器人运动规划本文以平面梅花桩为例,随机设定六足机器人的初始位置与目标区域,利用深度强化学习算法在平面梅花桩环境中为六足机器人规划运动策略。文章首先对六足机器人在平面梅花桩环境中的正逆运动学、质心和足端的运动空间以及质心静态稳定裕度进行分析求解,建立基本的运动学模型;随后采用具有优先经验重放(prioritized experience https://blog.sciencenet.cn/blog-951291-1288193.html
15.算法的学习基础根据《算法导论第三版》中的描述:算法就是任何问题的解决过程,它接收一些值或集合,对这些值或集合进行加工,最后产生一些值或集合作为输出,算法指的就是将输入转换为输出这个过程中的一系列计算流程。 简而言之,我们可以说算法就是解决一个特定任务的一系列步骤。 https://www.jianshu.com/p/225ff014a7d5