机器学习十大算法!入门看这个就够了~

在监督学习训练过程中,可以由训练数据集学到或建立一个模式(函数/learningmodel),并依此模式推测新的实例。该算法要求特定的输入/输出,首先需要决定使用哪种数据作为范例。例如,文字识别应用中一个手写的字符,或一行手写文字。主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。

这类算法没有特定的目标输出,算法将数据集分为不同的组。

强化学习普适性强,主要基于决策进行训练,算法根据输出结果(决策)的成功或错误来训练自己,通过大量经验训练优化后的算法将能够给出较好的预测。类似有机体在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下,强化学习被称作“近似动态规划”(approximatedynamicprogramming,ADP)。

线性回归算法(LinearRegression)的建模过程就是使用数据点来寻找最佳拟合线。公式,y=mx+c,其中y是因变量,x是自变量,利用给定的数据集求m和c的值。线性回归又分为两种类型,即简单线性回归(simplelinearregression),只有1个自变量;*多变量回归(multipleregression),至少两组以上自变量。

下面是一个线性回归示例:基于Pythonscikit-learn工具包描述。

支持向量机/网络算法(SVM)属于分类型算法。SVM模型将实例表示为空间中的点,将使用一条直线分隔数据点。需要注意的是,支持向量机需要对输入数据进行完全标记,仅直接适用于两类任务,应用将多类任务需要减少到几个二元问题。

KNN算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k值是预测精度的一个关键因素,无论是分类还是回归,衡量邻居的权重都非常有用,较近邻居的权重比较远邻居的权重大。

KNN算法的缺点是对数据的局部结构非常敏感。计算量大,需要对数据进行规范化处理,使每个数据点都在相同的范围。

延伸:KNN的一个缺点是依赖于整个训练数据集,学习向量量化(LearningVectorQuantization,LVQ)是一种监督学习的人神经网络算法,允许你选择训练实例。LVQ由数据驱动,搜索距离它最近的两个神经元,对于同类神经元采取拉拢,异类神经元采取排斥,最终得到数据的分布模式。如果基于KNN可以获得较好的数据集分类效果,利用LVQ可以减少存储训练数据集存储规模。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3,尤以LVQ2的应用最为广泛。

逻辑回归算法(LogisticRegression)一般用于需要明确输出的场景,如某些事件的发生(预测是否会发生降雨)。通常,逻辑回归使用某种函数将概率值压缩到某一特定范围。例如,Sigmoid函数(S函数)是一种具有S形曲线、用于二元分类的函数。它将发生某事件的概率值转换为0,1的范围表示。

以上是一个简单的逻辑回归方程,B0,B1是常数。这些常数值将被计算获得,以确保预测值和实际值之间的误差最小。

决策树(Decisiontree)是一种特殊的树结构,由一个决策图和可能的结果(例如成本和风险)组成,用来辅助决策。机器学习中,决策树是一个预测模型,树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,通常该算法用于解决分类问题。

一个决策树包含三种类型的节点:

简单决策树算法案例,确定人群中谁喜欢使用信用卡。考虑人群的年龄和婚姻状况,如果年龄在30岁或是已婚,人们更倾向于选择信用卡,反之则更少。通过确定合适的属性来定义更多的类别,可以进一步扩展此决策树。在这个例子中,如果一个人结婚了,他超过30岁,他们更有可能拥有信用卡(100%偏好)。测试数据用于生成决策树。

注意:对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。

k-平均算法(K-Means)是一种无监督学习算法,为聚类问题提供了一种解决方案。K-Means算法把n个点(可以是样本的一次观察或一个实例)划分到k个集群(cluster),使得每个点都属于离他最近的均值(即聚类中心,centroid)对应的集群。重复上述过程一直持续到重心不改变。

随机森林算法(RandomForest)的名称由1995年由贝尔实验室提出的randomdecisionforests而来,正如它的名字所说的那样,随机森林可以看作一个决策树的集合。随机森林中每棵决策树估计一个分类,这个过程称为“投票(vote)”。理想情况下,我们根据每棵决策树的每个投票,选择最多投票的分类。

朴素贝叶斯算法(NaiveBayes)基于概率论的贝叶斯定理,应用非常广泛,从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景,例如利用花瓣的长度和宽度来预测花的类型。“朴素”的内涵可以理解为特征和特征之间独立性强。

一些数据集可能包含许多难以处理的变量。特别是资源丰富的情况下,系统中的数据将非常详细。在这种情况下,数据集可能包含数千个变量,其中大多数变量也可能是不必要的。在这种情况下,几乎不可能确定对我们的预测影响最大的变量。此时,我们需要使用降维算法,降维的过程中也可能需要用到其他算法,例如借用随机森林,决策树来识别最重要的变量。

梯度增强算法(GradientBoosting)使用多个弱算法来创建更强大的精确算法。它与使用单个估计量不同,而是使用多个估计量创建一个更稳定和更健壮的算法。梯度增强算法有几种:

THE END
1.机器学习分类算法详解机器学习算法分类机器学习中的分类算法是用于将输入数据分配到预定义类别中的算法。分类任务是监督学习的一种,模型根据训练数据中的输入-输出对进行学习,然后预测新的输入数据的类别。常见的分类算法包括: 逻辑回归(Logistic Regression) k-近邻(k-Nearest Neighbors, k-NN) https://blog.csdn.net/a6181816/article/details/139317333
2.回归分类与聚类:三大方向剖解机器学习算法的优缺点机器之心对机器学习算法进行分类不是一件容易的事情,总的来看,有如下几种方式:生成与判别、参数与非参数、监督与非监督等等。 然而,就实践经验来看,这些都不是实战过程中最有效的分类算法的方式。因为对于应用机器学习而言,开发者一般会在脑海中有一个最终目标,比如预测一个结果或是对你的观察进行分类。 https://www.jiqizhixin.com/articles/2017-05-20-3
3.[MachineLearning]机器学习常见算法分类汇总Poll的笔记机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的分类。 博主在原创基础上加入了遗传算法(2.9)的介绍,这样一来,本篇博文所包含的机器学习算法更加全面丰富。该博文属于总结型文章,https://www.cnblogs.com/maybe2030/p/4665816.html
4.机器学习算法分类大全机器学习算法可以分为监督学习算法、无监督学习算法和半监督学习算法,下面以思维导图的形式总结了一下常见的监督学习和无监督学习算法,简单写了一下各种机器学习算法的分类: (1)监督学习:主要以分类、回归、概率图模型来写思维导图。 监督学习思维导图 https://www.jianshu.com/p/48a7f5fa44b3
5.机器学习算法的分类机器学习算法的分类 一、监督学习根据有无标签分类 根据有无标签,监督学习可分类为:传统的监督学习(Traditional Supervised Learning)、非监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)。 (1)传统的监督学习 传统的监督学习的每个训练数据均具有标签(标签可被理解为每个训练数据的正确输出,计算机https://www.elecfans.com/d/2061025.html
6.机器学习中常用的几种分类算法,如何选择合适的算法?今天和大家分享一下机器学习中常见的六种分类算法:K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、GBDT、XGBoost。 下面,介绍了各个算法的概念及特点。 KNN 决策树 朴素贝叶斯 逻辑回归 支持向量机 随机森林 AdaBoost GBDT XGBoost https://www.wokahui.com/article/industry/2697.html
7.机器学习中常见的六种分类算法(附Python源码+数据集)今天和大家学习一下机器学习中常见的六种分类算法,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林 除了介绍这六种不同分类算法外,还附上对应的Python代码案例,并分析各自的优缺点。 01 K近邻(KNN) k-近邻算法KNN就是K-Nearest neighbors Algorithms的简称,它采用测量不同特征值之间的距离方法进行分类https://blog.51cto.com/u_11949039/4882936
8.科学网—[转载]联邦学习算法综述摘要:近年来,联邦学习作为解决数据孤岛问题的技术被广泛关注,已经开始被应用于金融、医疗健康以及智慧城市等领域。从3个层面系统阐述联邦学习算法。首先通过联邦学习的定义、架构、分类以及与传统分布式学习的对比来阐述联邦学习的概念;然后基于机器学习和深度学习对目前各类联邦学习算法进行分类比较和深入分析;最后分别从通信https://blog.sciencenet.cn/blog-3472670-1280769.html
9.轻松看懂机器学习十大常用算法轻松看懂机器学习十大常用算法 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。https://mse.xauat.edu.cn/info/1017/1739.htm
10.《常用算法之智能计算(三)》:机器学习计算机器学习计算(Machine Learning Computing)主要设计和分析一些让计算机可以自动“学习”的算法,是一类从数据中自动分析获得规律、利用规律,对未来数据进行分类、聚类和预测等的一类算法。因为机器学习计算中涉及了大量的统计学理论,机器学习与统计推断的联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习计算关注可以http://www.kepu.cn/blog/zhangjianzhong/201903/t20190327_475625.html
11.综述机器学习中的12类算法腾讯云开发者社区最近在研究一些机器学习方面的论文,翻到了一篇较早的机器学习综述(2017年),虽然不是最新的研究现状,但考虑到经典机器学习算法其实发展并不像深度学习那么迅猛,所以其论述还是很有参考性。本文就其中关于机器学习算法分类的一段进行选摘翻译,以供参考。原文链接可通过阅读原文查阅。 https://cloud.tencent.com/developer/article/1851686