数据分析图解常用的10个机器学习算法数据分析

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。

因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。

当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学习的主要任务。打个比方,如果你想打扫房子,你可能会用到吸尘器、扫帚或者拖把,但你肯定不会拿把铲子开始挖坑吧。

对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。

线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。

线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。

LinearRegression

举例:y=B0+B1*x

给定输入x,我们将预测y,线性回归学习算法的目标是找到系数B0和B1的值。可以使用不同的技术从数据中学习线性回归模型,例如用于普通最小二乘和梯度下降优化的线性代数解。

逻辑回归是机器学习从统计领域借鉴的另一种技术。这是二分类问题的专用方法(两个类值的问题)。

逻辑回归与线性回归类似,这是因为两者的目标都是找出每个输入变量的权重值。与线性回归不同的是,输出的预测值得使用称为逻辑函数的非线性函数进行变换。

逻辑函数看起来像一个大S,并能将任何值转换为0到1的范围内。这很有用,因为我们可以将相应规则应用于逻辑函数的输出上,把值分类为0和1(例如,如果IF小于0.5,那么输出1)并预测类别值。

LogisticRegression

由于模型的特有学习方式,通过逻辑回归所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出许多基本原理的问题十分有用。

传统的逻辑回归仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(LinearDiscriminantAnalysis,简称LDA)是首选的线性分类技术。

LDA的表示非常简单。它由你的数据的统计属性组成,根据每个类别进行计算。对于单个输入变量,这包括:

每类的平均值。

跨所有类别计算的方差。

LinearDiscriminantAnalysis

LDA通过计算每个类的判别值并对具有最大值的类进行预测来进行。该技术假定数据具有高斯分布(钟形曲线),因此最好先手动从数据中移除异常值。这是分类预测建模问题中的一种简单而强大的方法。

决策树是机器学习的一种重要算法。

决策树模型可用二叉树表示。对,就是来自算法和数据结构的二叉树,没什么特别。每个节点代表单个输入变量(x)和该变量上的左右孩子(假定变量是数字)。

DecisionTree

树的叶节点包含用于进行预测的输出变量(y)。预测是通过遍历树进行的,当达到某一叶节点时停止,并输出该叶节点的类值。

决策树学习速度快,预测速度快。对于许多问题也经常预测准确,并且你不需要为数据做任何特殊准备。

朴素贝叶斯是一种简单但极为强大的预测建模算法。

该模型由两种类型的概率组成,可以直接从你的训练数据中计算出来:1)每个类别的概率;2)给定的每个x值的类别的条件概率。一旦计算出来,概率模型就可以用于使用贝叶斯定理对新数据进行预测。当你的数据是数值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。

BayesTheorem

朴素贝叶斯被称为朴素的原因,在于它假设每个输入变量是独立的。这是一个强硬的假设,对于真实数据来说是不切实际的,但该技术对于大范围内的复杂问题仍非常有效。

KNN算法非常简单而且非常有效。KNN的模型用整个训练数据集表示。是不是特简单

通过搜索整个训练集内K个最相似的实例(邻居),并对这些K个实例的输出变量进行汇总,来预测新的数据点。对于回归问题,新的点可能是平均输出变量,对于分类问题,新的点可能是众数类别值。

成功的诀窍在于如何确定数据实例之间的相似性。如果你的属性都是相同的比例,最简单的方法就是使用欧几里德距离,它可以根据每个输入变量之间的差直接计算。

K-NearestNeighbors

KNN可能需要大量的内存或空间来存储所有的数据,但只有在需要预测时才会执行计算(或学习)。你还可以随时更新和管理你的训练集,以保持预测的准确性。

K-近邻的缺点是你需要维持整个训练数据集。学习矢量量化算法(或简称LVQ)是一种人工神经网络算法,允许你挂起任意个训练实例并准确学习他们。

LearningVectorQuantization

LVQ用codebook向量的集合表示。开始时随机选择向量,然后多次迭代,适应训练数据集。在学习之后,codebook向量可以像K-近邻那样用来预测。通过计算每个codebook向量与新数据实例之间的距离来找到最相似的邻居(最佳匹配),然后返回最佳匹配单元的类别值或在回归情况下的实际值作为预测。如果你把数据限制在相同范围(如0到1之间),则可以获得最佳结果。

如果你发现KNN在您的数据集上给出了很好的结果,请尝试使用LVQ来减少存储整个训练数据集的内存要求。

支持向量机也许是最受欢迎和讨论的机器学习算法之一。

超平面是分割输入变量空间的线。在SVM中,会选出一个超平面以将输入变量空间中的点按其类别(0类或1类)进行分离。在二维空间中可以将其视为一条线,所有的输入点都可以被这条线完全分开。SVM学习算法就是要找到能让超平面对类别有最佳分离的系数。

SupportVectorMachine

超平面和最近的数据点之间的距离被称为边界,有最大边界的超平面是最佳之选。同时,只有这些离得近的数据点才和超平面的定义和分类器的构造有关,这些点被称为支持向量,他们支持或定义超平面。在具体实践中,我们会用到优化算法来找到能最大化边界的系数值。

SVM可能是最强大的即用分类器之一,在你的数据集上值得一试。

随机森林是最流行和最强大的机器学习算法之一。它是一种被称为BootstrapAggregation或Bagging的集成机器学习算法。

bootstrap是一种强大的统计方法,用于从数据样本中估计某一数量,例如平均值。它会抽取大量样本数据,计算平均值,然后平均所有平均值,以便更准确地估算真实平均值。

在bagging中用到了相同的方法,但最常用到的是决策树,而不是估计整个统计模型。它会训练数据进行多重抽样,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都会进行预测,并对预测结果进行平均,以更好地估计真实的输出值。

RandomForest

随机森林是对决策树的一种调整,相对于选择最佳分割点,随机森林通过引入随机性来实现次优分割。

因此,为每个数据样本创建的模型之间的差异性会更大,但就自身意义来说依然准确无误。结合预测结果可以更好地估计正确的潜在输出值。

如果你使用高方差算法(如决策树)获得良好结果,那么加上这个算法后效果会更好。

Boosting是一种从一些弱分类器中创建一个强分类器的集成技术。它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误。不断添加模型,直到训练集完美预测或已经添加到数量上限。

AdaBoost是为二分类开发的第一个真正成功的Boosting算法,同时也是理解Boosting的最佳起点。目前基于AdaBoost而构建的算法中最著名的就是随机梯度boosting。

AdaBoost

因为算法极为注重错误纠正,所以一个没有异常值的整洁数据十分重要。

初学者在面对各种各样的机器学习算法时提出的一个典型问题是“我应该使用哪种算法”问题的答案取决于许多因素,其中包括:

数据的大小,质量和性质;

任务的紧迫性;

你想要对数据做什么。

即使是一位经验丰富的数据科学家,在尝试不同的算法之前,也无法知道哪种算法会表现最好。虽然还有很多其他的机器学习算法,但这些算法是最受欢迎的算法。如果你是机器学习的新手,这是一个很好的学习起点。

THE END
1.十种常见典型算法算法有哪些那么又是哪10个计算机算法造就了我们今天的生活呢?请看下面的表单,排名不分先后: 1.归并排序(MERGE SORT),快速排序(QUICK SORT)和堆积排序(HEAP SORT) 哪个排序算法效率最高?这要看情况。这也就是我把这3种算法放在一起讲的原因,可能你更常用其中一种,不过它们各有千秋。 https://blog.csdn.net/darkhorsefly/article/details/134222961
2.10大计算机经典算法「建议收藏」腾讯云开发者社区BFPRT算法解决的问题十分经典,即从某n个元素的序列中选出第k大(第k小)的元素,通过巧妙的分析,BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似,当然,为使得算法在最坏情况下,依然能达到o(n)的时间复杂度,五位算法作者做了精妙的处理。 https://cloud.tencent.com/developer/article/2089934
3.数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。算法分类 连接分析:PageRank 关联分析:Apriori 分类算法http://baijiahao.baidu.com/s?id=1669165676284257223&wfr=spider&for=pc
4.普通物理学(一)课程教学大纲简谐振动的描述、动力学方程、能量,同方向简谐振动的合成,相互垂直的两个简谐振动的合成,阻尼振动、受迫振动。 2.教学要点 使学生掌握简谐振动的余弦表达式,旋转矢量、相位等概念。掌握无阻尼自由振动的周期、频率、能量等概念,掌握同方向同频率简谐振动的合成,理解李萨如图形,了解阻尼振动、受迫振动。 https://physics.suda.edu.cn/6f/8f/c1873a28559/page.htm
5.数学的论文优秀(15篇)3)注重经典算法的数学软件的实现和改进 由于实际问题的特殊性导致数学模型没有固定的模式,这就要求既要熟练掌握一般数学软件和算法的实现,又要善于改进和总结,使得现有的算法和程序能够通过修正来解决实际问题,这对于学生能力的培养不可或缺。只有不断的学习和总结,才有数学素养的培养和创新能力的提高。 https://www.yjbys.com/biyelunwen/fanwen/shuxue/734624.html
6.《三位数乘两位数》教案(精选15篇)教材第5、6页,想想做做第5~10题 教学目标: 同过练习,使学生进一步掌握、规范末尾有0和中间有0的三位数乘两位数的简便笔算方法。 探索乘数、积的变化规律,进一步明白末尾有0乘法的口算依据。 教学重点: 末尾有0的三位数乘两位数的笔算 教学过程: 一、举例昨天学生作业中的几种典型错误:(竖式略) https://www.ruiwen.com/jiaoan/7431605.html
7.计算机网络与通信之局域网51CTO博客以太网交换机是一种即插即用设备,其内部的帧交换表是通过自学习算法自动地逐渐建立起来的; 支持不同的传输速率和工作模式; 低交换延迟–基于硬件交换技术; 支持虚拟局域网服务。 独占传输媒体的带宽而无碰撞地传输数据 对于普通 10 Mb/s 的共享式以太网,若共有 N 个用户,则每个用户占有的平均带宽只有总带宽(10https://blog.51cto.com/u_16011718/6127981
8.小学一年级数学人教版下册教案生1:我能用小棒摆出自己的算法:先摆出1捆零2根小棒,再从1捆中拿掉8根,把剩下的2根与原来的2根合起来是4根,所以12-8=4。 生2:我能把自己的算法画出来:先在左边画10个圆圈,右边画2个圆圈,表示12,然后从左边的10个圆圈中划掉8个,剩下的2个与右边的2个合起来是4个,即12-8=4。 https://www.unjs.com/jiaoan/shuxue/20220802201517_5383426.html
9.文案必读:创意100招上卷举例:我有一个朋友 / 同学 / 同事 比喻:你比如说 / 这就好像 段子搞:不一定非要段子,你怎样给孩子讲故事、和闺蜜怎样打闹、和兄弟怎样喝酒吹牛,就怎样写。因为文字会自然沾染你的情绪的,你情绪冷,文字就冷,你情绪热,文字就热。 11. 咒语 https://www.digitaling.com/articles/33865.html
10.生命宇宙以及任何事情的终极答案《终极算法》的作者佩德罗?多明戈斯教授有一个假设: 所有知识,无论是过去的、现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。 多明戈斯将该学习算法称为“终极算法”。 他认为,如果这种算法成为可能,它的发明将成为人类最伟大的科学成就之一。实际上,终极算法是我们最不愿意发明的东西,因为一旦对其https://36kr.com/p/1722788823041.html
11.10个经典的C语言面试基础算法及代码算法是一个程序和软件的灵魂,作为一名优秀的程序员,只有对一些基础的算法有着全面的掌握,才会在设计程序和编写代码的过程中显得得心应手。本文是近百个C语言算法系列的第二篇,包括了经典的Fibonacci数列、简易计算器、回文检查、质数检查等算法。也许他们能在你的毕业设计或者面试中派上用场。 1、计算Fibonacci数列 https://www.imooc.com/article/2775
12.统计学权威盘点过去50年最重要的统计学思想,因果推理bootstrap等他们认为,过去半个世纪中最重要的统计思想是:反事实因果推理,基于bootstrapping(自助抽样法)和基于模拟的推理,超参数化模型和正则化,多层模型,泛型计算算法(generic computation algorithms),自适应决策分析,鲁棒推理和探索性数据分析(未按时间顺序,排序不分先后)。 https://www.thepaper.cn/newsDetail_forward_12835098
13.2020年深度学习算法工程师面经(微软阿里商汤滴滴华为简单分为深度学习、机器学习基础、图像处理基础、数学基础、算法基础、程序设计语言、模型部署、HR面试以及与我本人简历相关的目标检测、属性识别、Kaggle及天池的比赛、创新想法等几个部分介绍。可能开始会有重叠或者分类不恰当,后面会逐渐更新完善。其中第一篇先介绍到HR面试,第二篇介绍个人相关的项目和比赛部分。https://maimai.cn/article/detail?fid=1514590373&efid=Oph3033j5Qs70xHZdz0sGA