数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂贝叶斯em基尼

一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。

数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。

算法分类

连接分析:PageRank

关联分析:Apriori

分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART

聚类算法:K-Means,EM

一、PageRank

当一篇论文被引用的次数越多,证明这篇论文的影响力越大。

一个网页的入口越多,入链越优质,网页的质量越高。

原理

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

比喻说明

1、微博

2、店铺的经营

顾客比较多的店铺质量比较好,但是要看看顾客是不是托。

3、兴趣

关于阻尼因子

1、通过你的邻居的影响力来评判你的影响力,但是如果不能通过邻居来访问你,并不代表你没有影响力,因为可以直接访问你,所以引入阻尼因子的概念。

2、海洋除了有河流流经,还有雨水,但是下雨是随机的。

3、提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链),但是影响力却非常大的情形。

二、Apriori(关联分析)

关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。

1.支持度

某个商品组合出现的次数与总次数之间的比例。

5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8。

5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。

2.置信度

购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少。

买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5。

买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0.67。

3.提升度

衡量商品A的出现,对商品B的出现概率提升的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1,有提升;提升度=1,无变化;提升度<1,下降。

4.频繁项集

项集:可以是单个商品,也可以是商品组合。

频繁项集是支持度大于最小支持度(MinSupport)的项集。

计算过程

1、从K=1开始,筛选频繁项集。

2、在结果中,组合K+1项集,再次筛选。

3、循环1,2步。直到找不到结果为止,K-1项集的结果就是最终结果。

扩展:FP-Growth算法

Apriori算法需要多次扫描数据库,性能低下,不适合大数据量。

FP-growth算法,通过构建FP树的数据结构,将数据存储在FP树中,只需要在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库了。

比喻说明:啤酒和尿不湿摆在一起销售

沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。

父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。

三、AdaBoost

简单的说,多个弱分类器训练成为一个强分类器。

将一系列的弱分类器以不同的权重比组合作为最终分类选择。

1、初始化基础权重。

2、奖权重矩阵,通过已的分类器计算错误率,选择错误率最低的为最优分类器。

3、通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前k轮的分类器权重。

4、将新的权重矩阵,带入上面的步骤2和3,重新计算权重矩阵。

5、迭代N轮,记录每一轮的最终分类器权重,得到强分类器。

1、利用错题提升学习效率

做正确的题,下次少做点,反正都会了。

做错的题,下次多做点,集中在错题上。

随着学习的深入,做错的题会越来越少。

2、合理跨界提高盈利

苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益。

四、C4.5(决策树)

决策就是对于一个问题,有多个答案,选择答案的过程就是决策。

C4.5算法是用于产生决策树的算法,主要用于分类。

C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。

C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。

信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。

比喻说明:挑西瓜。

拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。

五、CART(决策树)

CART:ClassificationAndRegressionTree,中文叫分类回归树,即可以做分类也可以做回归。

什么是分类树、回归树?

分类树:处理离散数据,也就是数据种类有限的数据,输出的是样本的类别。

回归树:可以对连续型的数值进行预测,输出的是一个数值,数值在某个区间内都有取值的可能。

回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。

CART分类树

与C4.5算法类似,只是属性选择的指标是基尼系数。

基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。

分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART回归树

采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征。

分类:预测明天是阴、晴还是雨。

回归:预测明天的气温是多少度。

六、朴素贝叶斯(条件概率)

朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。

假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

P(A):先验概率,即在B事件发生之前,对A事件概率的一个判断。

P(B|A):条件概率,事件B在另外一个事件A已经发生条件下的发生概率。

P(A|B):后验概率,即在B事件发生之后,对A事件概率的重新评估。

比喻说明:给病人分类。

给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率。

七、SVM

SVM:SupportVectorMachine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM是有监督的学习模型。

什么是有监督学习和无监督学习?

有监督学习:即在已有类别标签的情况下,将样本数据进行分类。

无监督学习:即在无类别标签的情况下,样本数据根据一定的方法进行分类,即聚类,分类好的类别需要进一步分析后,从而得知每个类别的特点。

找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。

硬间隔:数据是线性分布的情况,直接给出分类。

软间隔:允许一定量的样本分类错误。

核函数:非线性分布的数据映射为线性分布的数据。

1.分隔桌上一堆红球和篮球

用一根线将桌上的红球和蓝球分成两部分。

2.分隔箱子里一堆红球和篮球

用一个平面将箱子里的红球和蓝球分成两部分。

八、KNN(聚类)

机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。

计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

计算步骤

1、根据场景,选取距离计算方式,计算待分类物体与其他物体之间的距离。

2、统计距离最近的K个邻居。

3、对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

比喻说明:近朱者赤,近墨者黑。

九、K-Means(聚类)

K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。

1.随机选取K个点为分类中心点。

2.将每个点分配到最近的类,这样形成了K个类。

3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点,那么新的中心点就是这10个点的中心点,一种简单的方式就是取平均值。

1.选老大

大家随机选K个老大,谁离得近,就是那个队列的人(计算距离,距离近的人聚合在一起)。

2.Kmeans和Knn的区别

Kmeans开班选老大,风水轮流转,直到选出最佳中心老大。

Knn小弟加队伍,离那个班相对近,就是那个班的。

十、EM(聚类)

EM的英文是ExpectationMaximization,所以EM算法也叫最大期望算法,也是聚类算法的一种。

EM和K-Means的区别:

先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。

比喻说明:菜称重。

很少有人用称对菜进行称重,再计算一半的分量进行平分。

大部分人的方法是:

1、先分一部分到碟子A中,再把剩余的分到碟子B中。

2、观察碟子A和B里的菜是否一样多,哪个多就匀一些到少的那个碟子里。

3、然后再观察碟子A和B里的是否一样多,重复下去,直到份量不发生变化为止。

10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要new出相应的模型即可。

THE END
1.数据挖掘概念(AnalysisServicesSQL Server 2008 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。有关使用 BI Development Studio 的详细信息,请参阅使用 Business Intelligence Development Studio 进行开发和实现。 https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.经典!10大数据挖掘算法!国际权威的学术组织 the IEEE International Conference on Data Mining (ICDM) 早前评选出了数据挖掘领域的十大经典算法: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。…https://zhuanlan.zhihu.com/p/688376648
3.数据挖掘常用算法概述:探索数据背后的秘密简介:RapidMiner是一款易于使用的数据科学平台,提供了图形界面和内置的数据分析工具。 优势:方便用户进行数据挖掘、机器学习和预测建模等任务。支持自定义算法和扩展插件,提供了诸如远程分析处理、创建和验证预测模型、多种数据管理方法、内置模板、可重复的工作流程、数据过滤以及合并与联接等多项实用功能。 https://blog.csdn.net/2401_84615737/article/details/143439857
4.数据挖掘算法有哪几种数据挖掘算法主要包括以下几种类型: 分类算法:用于将数据项分配到预定义的类别中。常见的分类算法有决策树、支持向量机(SVM)、朴素贝叶斯、k-近邻(k-NN)和神经网络等。这些算法通过学习现有数据集的特征,构建模型来预测新数据的类别。分类算法在解决诸如垃圾邮件检测、疾病诊断等问题中具有广泛应用。 聚类算法:用于将https://agents.baidu.com/content/question/4eb04fd16138bbb18d199dbd
5.数据挖掘算法数据挖掘算法概述 数据挖掘 数据挖掘(Data Mining, DM)是从大量的、不完全的、有噪声的、模糊的、实际应用数据中提取隐藏在其中但具有潜在价值的信息和知识的过程。分析历史数据,发现规律,建立决策模型,根据过去行动预测未来的行为。 算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令。算法代表着用系统https://www.jianshu.com/p/1decfa3acec0
6.数据挖掘的算法有哪些种类帆软数字化转型知识库数据挖掘的算法有很多种类,主要包括分类算法、聚类算法、关联规则挖掘、回归分析、降维算法、序列模式挖掘、时间序列分析、异常检测算法、神经网络、支持向量机、决策树、贝叶斯分类器等。分类算法是数据挖掘中最常用的一类算法,通过学习已有数据来预测新数据的类别。决策树是一种常见的分类算法,其通过构建树形模型,将数据https://www.fanruan.com/blog/article/596640/
7.算法工程师和数据挖掘工程师有什么区别吗算法工程师和数据挖掘工程师有什么区别吗 主要问题点在于: 1、求职面试侧重点; 2、以后发展前景 请大家讨论一下~~~ #数据挖掘##算法工程师# 全部评论 推荐 最新 楼层 已注销 数据挖掘工程师和算法工程师都需要一定的数学基础,前者侧重数据挖掘算法,比如层次聚类等等。算法工程师就根据算法领域各有不同了https://m.nowcoder.com/discuss/196851?type=0&order=0&page=1
8.什么是数据挖掘?SAS有监督学习模型以及相关的学习算法。 规范性建模:随着来自网络、评论字段、书籍、电子邮件、PDF 文件、音频和其他文本源的非结构化数据的增长,作为数据挖掘相关学科的文本挖掘也越来越多地为人所采用。您需要能够成功解析、过滤和转换非结构化数据,以便将其包含在预测模型中,以提高预测准确性。 https://www.sas.com/zh_cn/insights/analytics/data-mining.html
9.什么是数据挖掘数据挖掘介绍?IBM流程挖掘位于业务流程管理 (BPM)和数据挖掘的交叉点上。流程挖掘提供了一种将算法应用于事件日志数据的方法,用以确定有关流程如何展开的趋势、模式和详细信息。流程挖掘应用数据科学来发现瓶颈,然后验证和改进工作流程。 BPM 通常通过研讨会和访谈等非正式的方式收集数据,然后使用软件将该工作流程记录为流程图。由于为这https://www.ibm.com/cn-zh/topics/data-mining
10.数据挖掘原理与算法挖掘数据算法粗糙集原理数据库 数据挖掘信息管理与工程学院《数据挖掘原理与算法》毛国君,段立娟,王实,石云清华大学出版社,2007本课程的一些约定:1、课程目的:拓宽与加深专业知识2、注重平时学习?作业按时完成?未按时为晚交?一周内未交视为放弃作业按规定要求完成教科书:不可或缺不允许抄袭?但鼓励讨论?3、https://www.docin.com/p-2580655047.html
11.科学网—数据挖掘(Datamining)简介2、数据挖掘能做些什么?[3] 数据挖掘所要完成的任务其实也非常简单,如果一个人有无限的精力,并且不考虑效率的话,仅靠双手也能完成这些工作。只不过,我们往往面临海量的数据,而又必须在短时间内,以较高的准确度完成数据分析工作,这就必须依赖计算机和有效的算法(即数据挖掘算法)。具体来说,数据挖掘(算法)主要完成https://blog.sciencenet.cn/blog-200199-750526.html
12.数据挖掘原理与算法PDF扫描版[10MB]电子书下载第9章介绍了开放的数据挖掘平台。 数据挖掘原理与算法的使用对象是在校高年级的本科生、研究生及各个领域的高级软件开发人员。 数据挖掘原理与算法 目录: 前言 第1章 导论 1.1 数据挖掘的社会需求 1.2 什么是数据挖掘 1.3 数据挖掘的数据来源 1.4 数据挖掘的分类 1.4.1 分类分析(classification analysis) https://www.jb51.net/php/332629
13.数据挖掘十大算法K均值聚类算法51CTO博客数据挖掘十大算法--K-均值聚类算法 一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度。用通俗的话说。相异度就是两个东西区别有多大。比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。https://blog.51cto.com/u_15127603/4737902
14.数据挖掘的常见算法有哪些?数据挖掘是一种通过从大量数据中提取知识和信息的方法,以支持业务决策、市场分析和科学研究等领域。在数据挖掘过程中,算法是最重要的组成部分之一。以下是常见的数据挖掘算法。 1.分类算法 分类算法是一类用于将数据样本分为不同类别的算法。这些算法通常使用监督学习方法,其中模型基于已标记的训练数据进行训练。几个常见https://www.cda.cn/bigdata/202782.html
15.数据挖掘的四种基本方法关联规则挖掘是一种发现数据集中的项之间的关系和规律的技术。通常用于购物篮分析和物品关联推荐。关联规则挖掘算法可以发现数据集中的频繁项集和关联规则,这些规则可以用于推荐系统、市场分析、异常检测等领域。常见的关联规则挖掘算法包括Apriori算法、FP-Growth算法等。 https://www.ai-indeed.com/encyclopedia/4180.html
16.数据挖掘的四种基本方法粗集法基础理论是一种科学研究不精准、不确定性专业知识的数学工具。粗集办法几个优势:不必得出附加信息;简单化键入信息的表述室内空间;优化算法简易,便于实际操作。粗集处理的方针是附近二维关系表的信息表。 数据挖掘的步骤 解读需求要考虑专家、工作人员的意见;数据可从业务层的数据库中提取、抽样;在计算机分析技术https://www.dongao.com/cma/zy/202406204447292.html
17.湖南省统计局技术篇:算法与模型 ? 一、 机关可曾“算”尽? ? 之所以说数据挖掘是高等数学和计算机科学联姻的产物,其中一大原因就在于,对各种算法的支持程度是衡量数据挖掘工具的一大标准。在前期采访中,笔者曾设想通过对比各种数据挖掘工具对算法的支持程度来分出高低。但在采访之后,笔者发现这一对比实无必要,因为目前的算http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
18.BI系统是什么BI系统的定义详细介绍挖掘算法自然而然用R啊,多强大多专业,不过呵呵,有一定的上手难度,还需要动背后的统计原理,自己设计模型。一直期待有傻瓜式的数据挖掘工具,只要了解比如“聚类”,点一下就给自动的分割数据分好类。FineBI里面目前了解到有五类自动化的挖掘算法:时间序列、聚类、分类、回归和关联规则。 https://www.bnocode.com/article/xtbk60.html
19.《数据挖掘》实验项目《数据挖掘》 一、实验目标 《数据挖掘》课程是一门专业主干课,本课程实验的主要目的是使学生通过实验加深对数据挖掘流程和数据挖掘算法原理的理解,以提高学生的学习兴趣和实践动手能力。 二、实验对象 本实验开设对象为19大数据本科专业学生,本课程为必修课程。http://jsjfz.nut.edu.cn/index.php/cms/item-view-id-1331.shtml