机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看贝叶斯机器人神经网络|学习经典问题算法_在线学习

作为聪明的分析师，Billy发现一种规律：车的价格取决于车龄，每增加1年价格下降1000美元，但不会低于10000美元。

用机器学习的术语来说，Billy发明了“回归”(regression)——基于已知的历史数据预测了一个数值(价格)。当人们试图估算eBay上一部二手iPhone的合理价格或是计算一场烧烤聚会需要准备多少肋排时，他们一直在用类似Billy的方法——每人200g500？

大家都希望能有一个简单的公式来解决世界上所有的问题，但是显然这是不可能的。

让我们回到买车的情形，现在的问题是，除了车龄外，它们还有不同的生产日期、数十种配件、技术条件、季节性需求波动……天知道还有哪些隐藏因素……普通人Billy没法在计算价格的时候把这些数据都考虑进去，换我也同样搞不定。

我们需要机器人来帮他们做数学。因此，这里我们采用计算机的方法——给机器提供一些数据，让它找出所有和价格有关的潜在规律，相比于真人在头脑中仔细分析所有的依赖因素，机器处理起来要好得多，就这样，机器学习诞生了。

机器学习的3个组成部分

抛开所有和人工智能(AI)有关的扯淡成分，机器学习唯一的目标是基于输入的数据来预测结果，就这样。所有的机器学习任务都可以用这种方式来表示，否则从一开始它就不是个机器学习问题。

数据

想检测垃圾邮件？获取垃圾信息的样本。想预测股票？找到历史价格信息。想找出用户偏好？分析他们在Facebook上的活动记录(不，Mark，停止收集数据~已经够了)。数据越多样化，结果越好。对于拼命运转的机器而言，至少也得几十万行数据才够吧。

一些像Google这样聪明的家伙利用自己的用户来为他们免费标注数据，还记得ReCaptcha(人机验证)强制你去“选择所有的路标”么？他们就是这样获取数据的，还是免费劳动！干得漂亮。如果我是他们，我会更频繁地展示这些验证图片，不过，等等……

好的数据集真的很难获取，它们是如此重要，以至于有的公司甚至可能开放自己的算法，但很少公布数据集。

特征

也可以称为“参数”或者“变量”，比如汽车行驶公里数、用户性别、股票价格、文档中的词频等。换句话说，这些都是机器需要考虑的因素。

算法

最显而易见的部分。任何问题都可以用不同的方式解决。你选择的方法会影响到最终模型的准确性、性能以及大小。需要注意一点：如果数据质量差，即使采用最好的算法也无济于事。这被称为“垃圾进，垃圾出”(garbaein-garbageout,GIGO)。所以，在把大量心思花到正确率之前，应该获取更多的数据。

概念区分

经常会有人把机器学习和人工智能、神经网络等词混淆在一起，他们之间还有有很大区别的。简单给大家科普一下：

经典机器学习算法

尽管经典算法被广泛使用，其实原理很简单，你可以很容易地解释给一个蹒跚学步的孩子听。它们就像是基本的算术——我们每天都在用，甚至连想都不想。下面给大家讲一些经典的机器学习算法：

1.1有监督学习

经典机器学习通常分为两类：有监督学习和无监督学习。

在“有监督学习”中，有一个“监督者”或者“老师”提供给机器所有的答案来辅助学习，比如图片中是猫还是狗。“老师”已经完成数据集的划分——标注“猫”或“狗”，机器就使用这些示例数据来学习，逐个学习区分猫或狗。

无监督学习就意味着机器在一堆动物图片中独自完成区分谁是谁的任务。数据没有事先标注，也没有“老师”，机器要自行找出所有可能的模式。后文再讨论这些。

很明显，有“老师”在场时，机器学的更快，因此现实生活中有监督学习更常用到。有监督学习分为两类：

分类(Classification)

“基于事先知道的一种属性来对物体划分类别，比如根据颜色来对袜子归类，根据语言对文档分类，根据风格来划分音乐。”

分类算法常用于：

常用的算法：朴素贝叶斯、决策树、Logistic回归、K近邻、支持向量机

机器学习主要解决“分类”问题。这台机器好比在学习对玩具分类的婴儿一样：这是“机器人”，这是“汽车”，这是“机器-车”……额，等下，错误！错误！

朴素贝叶斯算法广泛应用于垃圾邮件过滤。机器分别统计垃圾邮件和正常邮件中出现的“伟哥”等字样出现的频次，然后套用贝叶斯方程乘以各自的概率，再对结果求和——哈，机器就完成学习了。

后来，垃圾邮件制造者学会了如何应对贝叶斯过滤器——在邮件内容后面添加很多“好”词——这种方法被讽称为“贝叶斯中毒”。朴素贝叶斯作为最优雅且是第一个实用的算法而载入历史，不过现在有其他算法来处理垃圾邮件过滤问题。

再举一个分类算法的例子。

假如现在你需要借一笔钱，那银行怎么知道你将来是否会还钱呢？没法确定。但是银行有很多历史借款人的档案，他们拥有诸如“年龄”、“受教育程度”、“职业”、“薪水”以及——最重要的——“是否还钱”这些数据。

利用这些数据，我们可以训练机器找到其中的模式并得出答案。找出答案并不成问题，问题在于银行不能盲目相信机器给出的答案。如果系统出现故障、遭遇黑客攻击或者喝高了的毕业生刚给系统打了个应急补丁，该怎么办？

要处理这个问题，我们需要用到决策树，所有数据自动划分为“是/否”式提问——比如“借款人收入是否超过128.12美元？”——听起来有点反人类。不过，机器生成这样的问题是为了在每个步骤中对数据进行最优划分。

“树”就是这样产生的。分值越高(接近根节点)，问题的范围就越广。所有分析师都能接受这种做法并在事后给出解释，即使他并不清楚算法是怎么回事，照样可以很容易地解释结果(典型的分析师啊)！

决策树广泛应用于高责任场景：诊断、医药以及金融领域。

最广为人知的两种决策树算法是CART和C4.5.

如今，很少用到纯粹的决策树算法。不过，它们是大型系统的基石，决策树集成之后的效果甚至比神经网络还要好。这个我们后面再说。

当你在Google上搜索时，正是一堆笨拙的“树”在帮你寻找答案。搜索引擎喜欢这类算法，因为它们运行速度够快。

按理说，支持向量机应该是最流行的分类方法。只要是存在的事物都可以用它来分类：对图片中的植物按形状归类，对文档按类别归类等。

SVM背后的思想很简单——它试图在数据点之间绘制两条线，并尽可能最大化两条线之间的距离。如下图示：

分类算法有一个非常有用的场景——异常检测，如果某个特征无法分配到所有类别上，我们就把它标出来。现在这种方法已经用于医学领域——MRI(磁共振成像)中，计算机会标记检测范围内所有的可疑区域或者偏差。股票市场使用它来检测交易人的异常行为以此来找到内鬼。在训练计算机分辨哪些事物是正确时，我们也自动教会其识别哪些事物是错误的。

经验法则表明，数据越复杂，算法就越复杂。对于文本、数字、表格这样的数据，我会选择经典方法来操作。这些模型较小，学习速度更快，工作流程也更清晰。对于图片、视频以及其他复杂的大数据，我肯定会研究神经网络。

回归(Regression)

“画一条线穿过这些点，嗯~这就是机器学习”

回归算法目前用于：

常见的回归算法有：线性回归、多项式回归

如果画出来的是直线，那就是“线性回归”，如果线是弯曲的，则是“多项式回归”。它们是回归的两种主要类型。其他类型就比较少见了。不要被Logistics回归这个“害群之马”忽悠了，它是分类算法，不是回归。

不过，把“回归”和“分类”搞混也没关系。一些分类器调整参数后就变成回归了。除了定义对象的类别外，还要记住对象有多么的接近该类别，这就引出了回归问题。

聚类

“机器会选择最好的方式，基于一些未知的特征将事物区分开来。”

聚类算法目前用于：

常见算法：K均值聚类、Mean-Shift、DBSCAN

聚类是在没有事先标注类别的前提下来进行类别划分。好比你记不住所有袜子的颜色时照样可以对袜子进行分类。聚类算法试图找出相似的事物(基于某些特征)，然后将它们聚集成簇。那些具有很多相似特征的对象聚在一起并划分到同一个类别。有的算法甚至支持设定每个簇中数据点的确切数量。

这里有个示范聚类的好例子——在线地图上的标记。当你寻找周围的素食餐厅时，聚类引擎将它们分组后用带数字的气泡展示出来。不这么做的话，浏览器会卡住——因为它试图将这个时尚都市里所有的300家素食餐厅绘制到地图上。

就像分类算法一样，聚类可以用来检测异常。用户登陆之后的有不正常的操作？让机器暂时禁用他的账户，然后创建一个工单让技术支持人员检查下是什么情况。说不定对方是个“机器人”。我们甚至不必知道“正常的行为”是什么样，只需把用户的行为数据传给模型，让机器来决定对方是否是个“典型的”用户。

这种方法虽然效果不如分类算法那样好，但仍值得一试。

降维

“将特定的特征组装成更高级的特征”

“降维”算法目前用于：

常用的“降维”算法：主成分分析、奇异值分解、潜在狄里克雷特分配、潜在语义分析、t-SNE(用于可视化)

早年间，“硬核”的数据科学家会使用这些方法，他们决心在一大堆数字中发现“有趣的东西”。Excel图表不起作用时，他们迫使机器来做模式查找的工作。于是他们发明了降维或者特征学习的方法。

将2D数据投影到直线上(PCA)

对人们来说，相对于一大堆碎片化的特征，抽象化的概念更加方便。

举个例子，我们把拥有三角形的耳朵、长长的鼻子以及大尾巴的狗组合出“牧羊犬”这个抽象的概念。相比于特定的牧羊犬，我们的确丢失了一些信息，但是新的抽象概念对于需要命名和解释的场景时更加有用。作为奖励，这类“抽象的”模型学习速度更快，训练时用到的特征数量也更少，同时还减少了过拟合。

因此，需要把单词和文档连接组合成一个特征，从而保持其中的潜在联系——人们发现奇异值分解(SVD)能解决这个问题。那些有用的主题簇很容易从聚在一起的词组中看出来。

关联规则学习(Associationrulelearning)

“在订单流水中查找模式”

“关联规则”目前用于：

常用的算法：Apriori、Euclat、FP-growth

经典的“啤酒与尿布”的故事原理就是关联规则应用，比如说，一位顾客拿着一提六瓶装的啤酒去收银台。我们应该在结账的路上摆放尿布吗人们同时购买啤酒和尿布的频次如何？我们还可以用它来预测其他哪些序列能否做到在商品布局上的作出微小改变就能带来利润的大幅增长？

这个思路同样适用电子商务，那里的任务更加有趣——顾客下次要买什么？

THE END

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看贝叶斯机器人神经网络

机器学习经典算法沐风先生

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看贝叶斯机器人神经网络

开启创新之门的钥匙——TRIZ技术理论

经典算法必读图片分类系列之（一）:你真的了解图片分类(ImageClassification)吗？图片分类是机器

计算机五大经典算法是什么常见问题

Java算法系列背包问题衾影の学习树洞

大岩资本黄铂：最优化算法的前世今生（中篇）投资界

国家密码管理局公告（第46号）