机器学习算法需要注意的一些问题总结（特别有用！！！）fen斗|学习算法有什么用_在线学习

对于机器学习的实际运用，光停留在知道了解的层面还不够，我们需要对实际中容易遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。

这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧，我们需要正例和负例样本的标注。如果我们拿到的训练数据正例很少负例很多，那么直接拿来做分类肯定是不行的。通常需要做以下方案处理：

通过调整数据集中正负样本的比例来解决数据不平衡，方法有：

正样本本来就少，怎么增加呢？方法是直接复制已有的正样本丢进训练集。这样可以稍微缓解正样本缺失的困境，但是容易带来一个问题，就是过拟合的潜在危险。因为这样粗暴的引入正样本并没有增加数据集的样本多样性。如何设计复制哪些正样本有一些技巧，比如选择有特定意义的代表性的那些。

首先这是一个通用的合理的方法，但是负样本的减少必然导致数据多样性的损失。有一种方法可以缓解这个问题，那就是类似于随机森林方法，每次正样本数量不变，随机选择等量的不同的负样本进行模型训练，反复几次，训练多个模型，最后所有的模型投票决定最终的分类结果。

可以重新修改模型训练的损失函数，使得错分正样本的损失变大，错分负样本的损失变小。这样训练出来的模型就会对正负样本有一个合理的判断。

说到异常值，首先得说一下数据量的问题。异常值不是缺失值，更不是错误值，同样是真实情况的表现，之所以觉得一个数据异常，是因为我们能够用到的数据量不够大，无法准确地代表整个此类数据的分布。如果把异常值放在海量数据的大背景下，那么这个异常值也就不那么异常了。

下载摘自某大牛博客一段话：

异常值并非错误值，而同样是真实情况的表现，我们之所以认为异常，只是因为我们的数据量不足够大而已。但是从实际的工业界来看，考虑到实际的计算能力以及效果，大多数公司都会对大数据做“去噪”，那么在去噪的过程中去除的不仅仅是噪音，也包括“异常点”，而这些“异常点”，恰恰把大数据的广覆盖度给降低了，于是利用大数据反而比小数据更容易产生趋同的现象。尤其对于推荐系统来说，这些“异常点”的观察其实才是“个性化”的极致。

既然说到大数据，同样是这位大牛的一段话：

说得学术一些，我们不妨认为大数据是频率学派对于贝叶斯学派一次强有力的逆袭。那么既然说到这个份上了，我们不妨思考一下，我们是不是有希望在回归贝叶斯学派，利用先验信息+小数据完成对大数据的反击呢？

某些机器学习算法对异常值很敏感，比如：K-means聚类，AdaBoost。使用此类算法必须处理异常值。某些算法拥有对异常值不敏感的特性，比如：KNN，随机森林。

如何处理异常值？最简单的方法就是直接丢掉。其它方法我后面会继续研究。

过拟合可要命了，好不容易训练一个模型，来一些测试数据，分类结果非常的差。过拟合产生的原因：

几乎所有的机器学习算法都会容易遇到过拟合的问题。所以先说一些解决过拟合的通用办法。当然，首先得保证训练数据不要太少。

正则化就是在模型的优化目标上再加入一个惩罚因子。这样模型的优化策略就从经验风险最小化变为结构风险最小化。

在数据量足够的情况下，可以采用交叉验证的方式避免过拟合，甚至可以在正则化之后再做一次交叉验证。

有句话必须得放在前面：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。

首先拽一段英文定义：

Featureengineeringistheprocessoftransformingrawdataintofeaturesthatbetterrepresenttheunderlyingproblemtothepredictivemodels,resultinginimprovedmodelaccuracyonunseendata.

inaword,featureengineeringismanuallydesigningwhattheinputx’sshouldbe.

主要是出于如下考虑：1.特征维数越高，模型越容易过拟合，此时更复杂的模型就不好用。2.相互独立的特征维数越高，在模型不变的情况下，在测试集上达到相同的效果表现所需要的训练样本的数目就越大。3.特征数量增加带来的训练、测试以及存储的开销都会增大。4.在某些模型中，例如基于距离计算的模型KMeans，KNN等模型，在进行距离计算时，维度过高会影响精度和性能。5.可视化分析的需要。在低维的情况下，例如二维，三维，我们可以把数据绘制出来，可视化地看到数据。当维度增高时，就难以绘制出来了。

在机器学习中，有一个非常经典的维度灾难的概念。用来描述当空间维度增加时，分析和组织高维空间，因体积指数增加而遇到各种问题场景。例如，100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样；而当维度增加到10后，如果以相邻点距离不超过0.01小方格采样单位超一单位超正方体，则需要10^20个采样点。

正是由于高维特征有如上描述的各种各样的问题，所以我们需要进行特征降维和特征选择等工作。

特征降维常用的算法有PCA，LDA等。

PCA算法通过协方差矩阵的特征值分解能够得到数据的主成分，以二维特征为例，两个特征之间可能存在线性关系（例如运动的时速和秒速度），这样就造成了第二维信息是冗余的。PCA的目标是发现这种特征之间的线性关系，并去除。

LDA算法考虑label，降维后的数据点尽可能地容易被区分。

然后，是不是特征越多越好？其实也不是。盗一张图过来如下：可以发现，刚开始模型的准确率随着特征数量的增加而增加，当增加到一定程度便趋于稳定了。如果还要强行加入如此多的特征，反而画蛇添足，容易过拟合。然后，如果出现特征过多出现过拟合的情况，就要适当地进行参数缩减。对于逻辑斯蒂回归，某一维特征对应的参数如果接近为零，说明这个特征影响不大，就可以去掉。因此，我们的特征选择过程一般如下：

这个过程的进行要同时观察模型准确率的变化。

具体其它细节，以后补充。

模型学习的准确度与数据样本大小有关，那么如何展示更多的样本与更好的准确度之间的关系呢？

我们可以通过不断增加训练数据，直到模型准确度趋于稳定。这个过程能够很好让你了解，你的系统对样本大小及相应调整有多敏感。

所以，训练样本首先不能太少，太少的数据不能代表数据的整体分布情况，而且容易过拟合。数据当然也不是越多越好，数据多到一定程度效果就不明显了。不过，这里假设数据是均匀分布增加的。

然而这里有另一种声音：

算法使用的数据越多，它的精度会更加准确，所以如果可能要尽量避免抽样。机器学习理论在预测误差上有着非常直观的描述。简而言之，在机器学习模型和最优预测（在理论上达到最佳可能的误差）之间的预测误差的差距可以被分解为三个部分：

由于没有找到正确函数形式的模型的误差由于没有找到最佳参数的模型的误差由于没用使用足够数据的模型的误差如果训练集有限，它可能无法支撑解决这个问题所需的模型复杂性。统计学的基本规律告诉我们，如果我们可以的话，应该利用所有的数据而不是抽样。

其实当然数据越多越好，但是更多的数据意味着获取的难度以及处理的复杂度等。并且当数据多到一定程度后区别就不那么明显了。所以我们还是要根据自己情况科学地使用一定数量的数据。

很多像我一样的机器学习新手在遇到问题的时候，都会对用什么样的模型解决问题感到困惑。除了基本的有监督无监督，分类还是回归，二分类多分类等等基本的选择标准，貌似其他的都差不多，通常的做法就是每个模型都试一试，看看哪个效果好就用哪个。。显然这么做的不够的。

其实，选择什么算法最好，关键不在于算法，而在于具体要解决的问题，以及问题所具有的数据和特征。下面结合自己的经验和收集的资料，给出几点选择算法的tips。

就像古代把人分为三六九等，特征也有层次之分。我们暂且粗略地分为高级别特征和低级别特征，有的时候高级别的特征又叫组合特征。总体上，低级别特征比较有针对性，单个特征覆盖面小（含有这个特征的数据不多），特征数量（维度）很大。高级别特征比较泛化，单个特征覆盖面大（含有这个特征的数据很多），特征数量（维度）不大。下图展示了什么是高级低级特征：

特征的低级和高级带来模型选择上的线性模型和非线性模型的考量：

非线性模型的特征1）可以主要使用HighLevel特征，因为计算复杂度大，所以特征维度不宜太高；2）通过HighLevel非线性映射可以比较好地拟合目标。

线性模型的特征1）特征体系要尽可能全面，HighLevel和LowLevel都要有；2）可以将HighLevel转换LowLevel，以提升模型的拟合能力。

那平常我们所纠结的逻辑斯蒂回归和决策树用哪个好为例，决策树是一种非线性模型，因此如果是高级别特征的话我们就选择决策树；逻辑斯蒂回归是一种线性模型，因此如果是低级别特征的话我们就选择逻辑斯蒂回归。

线性模型对非线性关系缺乏准确刻画，高级特征刚好可以加入模型的非线性表达，增强模型的表达能力。另外，使用低级特征可以认为是对全局进行建模，而高级特征更加精细，是个性化建模，这就是为什么

当我们有一些高级特征的时候，就把高级特征和低级特征共同加入到逻辑回归中进行训练，这样训练出来的模型兼顾了全局化与个性化，会使模型预测的准确率有所提高。具体到逻辑回归和决策树的使用上，我们可以充分利用两者之间的优缺点进行互补。主要思路是利用决策树对局部数据结构优越的把握能力增加逻辑回归的效力。在具体做法上有几种，一种是从决策树分析中找出数据局部结构，作为在逻辑回归中构建依变量（interaction)的依据。另一种是在需要对预测因子进行离散化处理时，利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量，和其他协变量一起代入回归模型，又称为“嫁接式模型”。从理论上讲，嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构，而协变量可以拾补被决策树遗漏的数据整体结构。

有时候我们要解决的问题可以用单个复杂的模型解决，也可以用多个简单的模型分别解决各个子问题，再基于各个单模型进行融合解决总问题。融合的方式可以是简单的线性融合，也可以是更加复杂的融合。

不同模型有不同优缺点，具体如下：

选择哪种模式？1）问题可预估的难度，难度大，则考虑用多模型；2）问题本身的重要性，问题很重要，则考虑用多模型；3）多个模型的关系是否明确，关系明确，则可以用多模型。

最近模型组合的算法越来越流行，当单个分类器的性能不足以解决实际问题的时候，可以考虑使用模型组合的方法，也就是bagging和boosting的方法。

关于这部分，只知道GBDT在工业界很火，当有了一定了解和实战经验后，再来补充。

您的资助是我最大的动力！金额随意,欢迎来赏！

因为，我的写作热情也离不开您的肯定支持，感谢您的阅读，我是【未来可期】！

THE END

机器学习算法需要注意的一些问题总结（特别有用！！！）fen斗

学算法干嘛？LINUX

算法让知识流动起来数学短视频

用C学习数据结构与算法有什么书可以推荐的吗–PingCode

机器学习在聚类算法中，使用曼哈顿距离和使用欧式距离有什么区别？

RM圆桌005抢人头要靠自瞄

什么是深度学习？深度学习的工作原理

什么是机器学习？

科普算法是啥？编程又是啥？5分钟给你讲明白！

SparkDesk使用指南讯飞开放平台文档中心

机器学习算法需要注意的一些问题总结（特别有用！！！）fen斗