我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。
只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。
所以我列了一个机器学习入门的知识清单,分别是机器学习的一般流程、十大算法、算法学习的三重境界,以此来开启我们的学习之旅。
一、机器学习的基本流程
引用大佬的解释:
简单来说,机器学习就是针对现实问题,使用我们输入的数据对算法进行训练,算法在训练之后就会生成一个模型,这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的好坏反过来调整算法,形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代,这个也是机器学习强大的地方。
二、机器学习的十大算法
按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。
聚类算法:K-Means,EM
关联分析:Apriori
连接分析:PageRank
1.C4.5
C4.5算法是得票最高的算法,可以说是十大算法之首。C4.5是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。
2.朴素贝叶斯(NaiveBayes)
朴素贝叶斯模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。
3.SVM
SVM的中文叫支持向量机,英文是SupportVectorMachine,简称SVM。SVM在训练中建立了一个超平面的分类模型。
4.KNN
KNN也叫K最近邻算法,英文是K-NearestNeighbor。所谓K近邻,就是每个样本都可以用它最接近的K个邻居来代表。如果一个样本,它的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。
5.AdaBoost
Adaboost在训练中建立了一个联合的分类模型。boost在英文中代表提升的意思,所以Adaboost是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以Adaboost也是一个常用的分类算法。
6.CART
CART代表分类和回归树,英文是ClassificationandRegressionTrees。像英文一样,它构建了两棵树:一颗是分类树,另一个是回归树。和C4.5一样,它是一个决策树学习方法。
7.Apriori
8.K-Means
9.EM
EM算法经常用于聚类和机器学习领域中。
10.PageRank
PageRank起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样PageRank被Google创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。
算法可以说是机器学习的灵魂,也是最精华的部分。这10个经典算法在整个机器学习领域中的得票最高的,后面的一些其他算法也基本上都是在这个基础上进行改进和创新。今天你先对十大算法有一个初步的了解,你只需要做到心中有数就可以了。
三、机器学习的三大境界
1.掌握算法入口出口
第一重境界,将算法本身是做黑箱,在不知道算法具体原理的情况下能够掌握算法的基本应用情景(有监督、无监督),以及算法的基本使用情景,能够调包实现算法。
2.理解原理,灵活调优
3.融会贯通,设计算法
总结
今天我列了下学习机器学习你要掌握的知识清单,只有你对机器学习的流程、算法、原理有更深的理解,你才能在实际工作中更好地运用,祝你在机器学习的路上越走越远。
审核编辑:李倩
原文标题:学习机器学习的最佳路径路?
长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)