机器学习常用的十类算法

人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。该类型算法在语音、语义、视觉、各类游戏等任务中表现极好,但需要大量数据进行训练,且训练要求很高的硬件配置。

ANN在图像和字符识别中起着重要的作用,手写字符识别在欺诈检测甚至国家安全评估中有很多应用。ANN的研究为深层神经网络铺平了道路,是「深度学习」的基础,现已在计算机视觉、语音识别、自然语言处理等方向开创了一系列令人激动的创新。

2.决策树

在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。其采用一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

决策树算法属于非参数型,较为容易解释,但其趋向过拟合;可能陷入局部最小值中;无法在线学习。决策树的生成主要分为两步:1.节点的分裂:当一个节点所代表的属性无法给出判断时,则选择将该节点分成2个子节点2.阈值的确定:选择适当的阈值使得分类错误率最小。

3.集成算法

简单算法一般复杂度低、速度快、易展示结果,其中的模型可以单独进行训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。每种算法好像一种专家,集成就是把简单的算法组织起来,即多个专家共同决定结果。

集成算法比使用单个模型预测出来的结果要精确的多,但需要进行大量的维护工作。

AdaBoost的实现是一个渐进的过程,从一个最基础的分类器开始,每次寻找一个最能解决当前错误样本的分类器。好处是自带了特征选择,只使用在训练集中发现有效的特征,这样就降低了分类时需要计算的特征数量,也在一定程度上解决了高维数据难以理解的问题。

4.回归算法

5.贝叶斯算法

朴素贝叶斯分类是一种十分简单的分类算法:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

朴素贝叶斯分类分为三个阶段,1.根据具体情况确定特征属性,并对每个特征属性进行适当划分,形成训练样本集合2.计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计3.使用分类器对待分类项进行分类。

6.K近邻

K紧邻算法的核心是未标记样本的类别,计算待标记样本和数据集中每个样本的距离,取距离最近的k个样本。待标记的样本所属类别就由这k个距离最近的样本投票产生,给定其测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。

K紧邻算法准确性高,对异常值和噪声有较高的容忍度,但计算量较大,对内存的需求也较大。该算法主要应用于文本分类、模式识别、图像及空间分类。

7.聚类算法

聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。应用中可利用聚类分析,通过将数据分组可以比较清晰的获取到数据信息。该算法让数据变得有意义,但存在结果难以解读,针对不寻常的数据组,结果可能无用。

在商业领域中,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。

8.随机森林算法

随机森林是一种有监督学习算法,基于决策树为学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代表集成学习技术水平的方法”。

9.支持向量机

支持向量机通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

支持向量机可应用于诸如文本分类,图像分类,生物序列分析和生物数据挖掘,手写字符识别等领域。

10.深度学习

深度学习基于人工神经网络的机器学习,区别于传统的机器学习,深度学习需要更多样本,换来更少的人工标注和更高的准确率。

小结

算法是计算机科学领域最重要的基石之一,当下需要处理的信息量是呈指数级的增长,每人每天都会创造出大量数据,无论是三维图形、海量数据处理、机器学习、语音识别,都需要极大的计算量,在AI时代越来越多的挑战需要靠卓越的算法来解决。

THE END
1.机器学习的算法和普通《算法导论》里的算法有什么本质上的异同本人非计算机专业出身,对这些方向感兴趣,所以有此一问。曾经问过一些人,说是机器学习全是数学,是用数学的方式试图去描述和理解我们的世界,而《算法导论》里的这些算法主要是如何用计算机的思维去处理一些实际的问题。我似懂非懂,还是没能抓住最根源上的东西。希望能有一些专业的,通俗的回答,谢谢了 https://blog.csdn.net/GoodShot/article/details/78503259
2.人工智能基础知识速成一、机器学习概念与原理 什么是机器学习? 机器学习是人工智能的一个分支,通过从数据中学习和改进算法,使计算机系统在没有明确编程的情况下也能够自动地学习和改进。机器学习是一种实现人工智能的技术手段,能够让计算机“自我学习”,从而实现更准确的预测和决策。 https://www.jianshu.com/p/90fcb8dc2b95
3.机器学习中常用的几种分类算法,如何选择合适的算法?今天和大家分享一下机器学习中常见的六种分类算法:K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、GBDT、XGBoost。 下面,介绍了各个算法的概念及特点。 KNN 决策树 朴素贝叶斯 逻辑回归 支持向量机 随机森林 AdaBoost GBDT XGBoost https://www.wokahui.com/article/industry/2697.html
4.11种比较常见的机器学习算法简介注意:尽管深度学习是机器学习的一个子领域,但我不会在本文中包含任何深度学习算法。 我认为深度学习算法由于复杂性和动态性而应分开讨论。 此外,我会犹豫地使这篇文章过长,使读者感到厌烦。 开始吧。 1.线性回归 线性回归是一种有监督的学习算法,它通过对数据拟合线性方程,尝试对连续目标变量和一个或多个自变量之https://www.51cto.com/article/622149.html
5.机器学习10大经典算法详解pythonK最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 9、Naive Bayes朴素贝叶斯 https://www.jb51.net/article/129969.htm
6.《常用算法之智能计算(三)》:机器学习计算因为机器学习计算中涉及了大量的统计学理论,机器学习与统计推断的联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习计算关注可以实现的、行之有效的学习算法,很多推论问题具有无程序可循的难度,所以部分的机器学习研究是开发简单、处理容易的近似算法。http://www.kepu.cn/blog/zhangjianzhong/201903/t20190327_475625.html
7.17个机器学习的常用算法转载自算法与数学之美 1. 监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649462205&idx=7&sn=d59c932114114fb51982e5b34207d13a&chksm=bec1f7fa89b67eec2e1dcff67c166543aa99a6b319987f7481e123cb642bb04b766c20e8dc86&scene=27
8.机器学习简史和常用算法的梳理腾讯云开发者社区与符号主义学习能产生明确的概念表示不同,连接主义学习产生的是黑箱模型,因此从知识获取的角度来看,连接主义学习技术有明显弱点。然而,BP 一直是被应用的最广泛的机器学习算法之一,在很多现实问题上发挥作用。连接主义学习的最大局限是其试错性。简单来说,其学习过程设计大量的参数,而参数的设置缺乏理论指导,主要靠手工https://cloud.tencent.com/developer/article/2075741