机器学习十大算法！入门看这个就够了~|机器学习算法分类_在线学习

在监督学习训练过程中，可以由训练数据集学到或建立一个模式（函数/learningmodel），并依此模式推测新的实例。该算法要求特定的输入/输出，首先需要决定使用哪种数据作为范例。例如，文字识别应用中一个手写的字符，或一行手写文字。主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。

这类算法没有特定的目标输出，算法将数据集分为不同的组。

强化学习普适性强，主要基于决策进行训练，算法根据输出结果（决策）的成功或错误来训练自己，通过大量经验训练优化后的算法将能够给出较好的预测。类似有机体在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下，强化学习被称作“近似动态规划”（approximatedynamicprogramming，ADP）。

线性回归算法（LinearRegression）的建模过程就是使用数据点来寻找最佳拟合线。公式，y=mx+c，其中y是因变量，x是自变量，利用给定的数据集求m和c的值。线性回归又分为两种类型，即简单线性回归（simplelinearregression)，只有1个自变量；*多变量回归（multipleregression)，至少两组以上自变量。

下面是一个线性回归示例：基于Pythonscikit-learn工具包描述。

支持向量机/网络算法(SVM)属于分类型算法。SVM模型将实例表示为空间中的点，将使用一条直线分隔数据点。需要注意的是，支持向量机需要对输入数据进行完全标记，仅直接适用于两类任务，应用将多类任务需要减少到几个二元问题。

KNN算法是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k值是预测精度的一个关键因素，无论是分类还是回归，衡量邻居的权重都非常有用，较近邻居的权重比较远邻居的权重大。

KNN算法的缺点是对数据的局部结构非常敏感。计算量大，需要对数据进行规范化处理，使每个数据点都在相同的范围。

延伸：KNN的一个缺点是依赖于整个训练数据集，学习向量量化（LearningVectorQuantization，LVQ)是一种监督学习的人神经网络算法，允许你选择训练实例。LVQ由数据驱动，搜索距离它最近的两个神经元，对于同类神经元采取拉拢，异类神经元采取排斥，最终得到数据的分布模式。如果基于KNN可以获得较好的数据集分类效果，利用LVQ可以减少存储训练数据集存储规模。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3，尤以LVQ2的应用最为广泛。

逻辑回归算法（LogisticRegression）一般用于需要明确输出的场景，如某些事件的发生（预测是否会发生降雨）。通常，逻辑回归使用某种函数将概率值压缩到某一特定范围。例如，Sigmoid函数（S函数）是一种具有S形曲线、用于二元分类的函数。它将发生某事件的概率值转换为0,1的范围表示。

以上是一个简单的逻辑回归方程，B0，B1是常数。这些常数值将被计算获得，以确保预测值和实际值之间的误差最小。

决策树（Decisiontree）是一种特殊的树结构，由一个决策图和可能的结果（例如成本和风险）组成，用来辅助决策。机器学习中，决策树是一个预测模型，树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，通常该算法用于解决分类问题。

一个决策树包含三种类型的节点：

简单决策树算法案例，确定人群中谁喜欢使用信用卡。考虑人群的年龄和婚姻状况，如果年龄在30岁或是已婚，人们更倾向于选择信用卡，反之则更少。通过确定合适的属性来定义更多的类别，可以进一步扩展此决策树。在这个例子中，如果一个人结婚了，他超过30岁，他们更有可能拥有信用卡（100%偏好）。测试数据用于生成决策树。

注意：对于那些各类别样本数量不一致的数据，在决策树当中信息增益的结果偏向于那些具有更多数值的特征。

k-平均算法(K-Means)是一种无监督学习算法，为聚类问题提供了一种解决方案。K-Means算法把n个点（可以是样本的一次观察或一个实例）划分到k个集群（cluster），使得每个点都属于离他最近的均值（即聚类中心，centroid）对应的集群。重复上述过程一直持续到重心不改变。

随机森林算法（RandomForest）的名称由1995年由贝尔实验室提出的randomdecisionforests而来，正如它的名字所说的那样，随机森林可以看作一个决策树的集合。随机森林中每棵决策树估计一个分类，这个过程称为“投票（vote）”。理想情况下，我们根据每棵决策树的每个投票，选择最多投票的分类。

朴素贝叶斯算法（NaiveBayes）基于概率论的贝叶斯定理，应用非常广泛，从文本分类、垃圾邮件过滤器、医疗诊断等等。朴素贝叶斯适用于特征之间的相互独立的场景，例如利用花瓣的长度和宽度来预测花的类型。“朴素”的内涵可以理解为特征和特征之间独立性强。

一些数据集可能包含许多难以处理的变量。特别是资源丰富的情况下，系统中的数据将非常详细。在这种情况下，数据集可能包含数千个变量，其中大多数变量也可能是不必要的。在这种情况下，几乎不可能确定对我们的预测影响最大的变量。此时，我们需要使用降维算法，降维的过程中也可能需要用到其他算法，例如借用随机森林，决策树来识别最重要的变量。

梯度增强算法（GradientBoosting）使用多个弱算法来创建更强大的精确算法。它与使用单个估计量不同，而是使用多个估计量创建一个更稳定和更健壮的算法。梯度增强算法有几种：

THE END

机器学习十大算法！入门看这个就够了~

机器学习十大算法！入门看这个就够了~

机器学习算法的基本概念分类和评价标准，以及一些常用的机器学习算法的原理和特点

概述机器学习经典算法

基于人民网新闻标题的短文本自动分类研究传媒

毕业设计基于机器学习的垃圾邮件分类算法研究与实现

机器学习算法中分类知识总结！分类器阈值样本