数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。

数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。

由于网上上很多关于数据挖掘算法的介绍都十分的深奥难懂,今天我就给大家用简单的大白话来介绍一下数据挖掘十大经典算法原理,帮助大家快速理解。

(1)核心思想

当一篇论文被引用的次数越多,证明这篇论文的影响力越大。同理可引申为一个网页的入口越多,入链越优质,网页的质量越高。

(2)原理

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问,所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。

(3)比喻说明

店铺的经营:顾客比较多的店铺质量比较好,但是要看看顾客是不是托。

(4)关于阻尼因子

(5)出链例子

hao123导航网页,出链极多入链极少。

(6)入链例子

百度谷歌等搜索引擎,入链极多出链极少。

关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。

支持度

某个商品组合出现的次数与总次数之间的比例。5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8。5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。

置信度

购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少。买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5。买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0.67。

提升度

衡量商品A的出现,对商品B的出现概率提升的程度。提升度(A->B)=置信度(A->B)/支持度(B)。提升度>1,有提升;提升度=1,无变化;提升度<1,下降。

频繁项集

项集:可以是单个商品,也可以是商品组合。频繁项集是支持度大于最小支持度(MinSupport)的项集。

(3)计算过程

(4)比喻说明:啤酒和尿不湿摆在一起销售

沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。

(1)原理

简单的说,多个弱分类器训练成为一个强分类器。将一系列的弱分类器以不同的权重比组合作为最终分类选择。

(2)计算过程

利用错题提升学习效率

做正确的题,下次少做点,反正都会了。做错的题,下次多做点,集中在错题上。随着学习的深入,做错的题会越来越少。

合理跨界提高盈利

苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益。

决策就是对于一个问题,有多个答案,选择答案的过程就是决策。C4.5算法是用于产生决策树的算法,主要用于分类。C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。

C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。

(3)比喻说明:挑西瓜。

拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。

(1)概念介绍

CART

ClassificationAndRegressionTree,中文叫分类回归树,即可以做分类也可以做回归。

什么是分类树、回归树?

回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。

CART分类树

与C4.5算法类似,只是属性选择的指标是基尼系数。基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART回归树

采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征。

朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。

假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

(3)比喻说明:给病人分类。

给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率。

SVM

SupportVectorMachine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM是有监督的学习模型。

什么是有监督学习和无监督学习?

找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。

机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。

计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

(3)计算步骤

(4)比喻说明:近朱者赤,近墨者黑。

K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。

选老大

Kmeans和Knn的区别

Kmeans开班选老大,风水轮流转,直到选出最佳中心老大。Knn小弟加队伍,离那个班相对近,就是那个班的。

EM的英文是ExpectationMaximization,所以EM算法也叫最大期望算法,也是聚类算法的一种。

EM和K-Means的区别:

先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。

(3)比喻说明:菜称重。

很少有人用称对菜进行称重,再计算一半的分量进行平分。大部分人的方法是:

10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要new出相应的模型即可。

post2020-12-2514:13:03

2021开源BI软件排行榜

2021年商业智能BI发展趋势

2021商业数据分析软件有哪些

2021主流的数据可视化工具有哪些

2023年10大BI工具排行

浏览:76090

浏览:67193

浏览:65397

浏览:64705

浏览:56802

浏览:55110

内含200+数据可视化分析Demo,各场景分析模型和指标体系,给您的数据分析提供参考

THE END
1.一文图解弄懂八大常用算法思想一文图解弄懂八大常用算法思想 算法和数据结构一直以来都是程序员的基本内功,可以说没有数据结构的基础建设和算法加持,也就没有这将近八十年的信息革命时代。数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠的执行起来。https://www.51cto.com/article/628524.html
2.如何学习算法算法怎么学如何学习算法 14天阅读挑战赛 算法,不懂的人觉得好难,无所适应;但对于懂的人,就感觉非常的简单,有点像那种脑筋急转弯一样,不同人的思路,用代码来实现。知识在于积累,学习需要耐心。不懂也不要觉得自己笨,或许你一开始毫无头绪,但转个角度,换个工具,时间久了总会找到门径。https://blog.csdn.net/qq_48701993/article/details/127402826
3.机器学习算法核心思想总结朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的多分类的机器学习方法,所谓贝叶斯指的是:朴素贝叶斯分类器是通过比较类后验概率大小,将样本分到类后验概率最大的类别中,因此是一种贝叶斯方法;所谓朴素指的是:类后验概率是通过先验概率分布和条件概率分布求得,先验概率分布就是每个类的先验概率,条件概率分布即在https://www.jianshu.com/p/27365970f535
4.python机器学习笔记:深入学习决策树算法原理如何选择模型呢?(这里借助别人的图来选择分类,回归,聚类,降维) 决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,而作为一个码农,经常不断的敲 if else,其实就已经用到了决策树的思想了,所以相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感https://www.flyai.com/article/622
5.高二数学教案通过模仿、操作、探索,学习设计程序框图表达,解决问题的过程,发展有条理的思考与表达的能力,提高逻辑思维能力。 3、情感、态度与价值观目标 通过本节的自主性学习,让学生感受和体会算法思想在解决具体问题中的意义,增强学生的创新能力和应用数学的意识。三、教法分析 https://www.fwsir.com/jiaoan/html/jiaoan_20221204150736_2117816.html
6.机器学习(14)——朴素贝叶斯算法思想:基于概率的预测贝叶斯公式算法思想:基于概率的预测 逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类,支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下,朴素贝叶斯独辟蹊径,通过考虑特征概率来预测分类。 贝叶斯思想 那么如何通过概率来进行决策的构建呢?举个可能不太恰当的例子:https://cloud.tencent.com/developer/article/1111761
7.相由心生?面部算法分析能否窥测你的内心?思想市场澎湃新闻虽然该文摘要指出,该算法只是在学习和聚合,然后反刍(regurgitating)人类的感知,很容易出错,但是作者还是表示:“我们的经验证据指向了训练机器学习算法的可能性,比如使用人脸图像预测人格特征和行为倾向。” 9月初,斯坦福大学的迈克尔·科辛斯基(Michal Kosinski)和王轶伦发布了一项研究的预稿,报告表明,利用约会网站上的照https://www.thepaper.cn/newsDetail_forward_1864416
8.高二数学公开课优秀教案(通用10篇)通过模仿、操作、探索,学习设计程序框图表达,解决问题的过程,发展有条理的思考与表达的能力,提高逻辑思维能力。 3、情感、态度与价值观目标 通过本节的自主性学习,让学生感受和体会算法思想在解决具体问题中的意义,增强学生的创新能力和应用数学的意识。三、教法分析 https://www.oh100.com/kaoshi/jiaoan/637987.html
9.数学教师业务提升计划(精选15篇)数学教学不再是教师向学生传授知识的过程,而是给学生创造环境,鼓励学生“观察”、“操作”、“发现”,在这个过程中通过合作交流,让学生发展自主学习。下面是小编带来的数学教师业务提升计划(精选15篇),希望对大家有帮助! 数学教师业务提升计划1 一、 指导思想 https://www.ruiwen.com/word/shuxuejiaoshiyewutishengjihua.html
10.学习算法的意义(精选八篇)这就需要我们教育工作者认真地来理解和思考新课标下的算法,并将算法思想有效地渗透和贯穿到数学教学中,让学生能够具备算法思想和信息技术素养,这也将是未来社会对于公民的基本要求。 摘要:随着现代信息技术的迅猛发展,算法已融入生活的众多方面,扮演着重要的角色。在高中数学教科书中也将算法作为一个独立的章节在学习,https://www.360wenmi.com/f/cnkey165grie.html
11.高分遥感驱动的精准土地利用与土地覆盖变化信息智能计算模型与的属性信息,而“建”、“水”、“土”、“生”、“地”等各类地理图斑又明显地具有多尺度空间粒特点,因此以图斑为记录对象的属性表天然具有鲜明的多粒度特性与层次化特征,可遵循粒计算的原理约简X(降维),并以较大的泛化力提炼X与y间的映射关系,从而在目标空间Y中构建形成针对不同求解目标y的迁移学习算法集http://www.jors.cn/jrs/article/html/202107001
12.“问道”学习知识云:算法助力思想理论学习实践“问道”学习知识云依托新华社新闻数据和媒体智库分析能力,结合北京大学王选计算机研究所的自然语言处理技术和北京大学习近平新时代中国特色社会主义思想研究院等学术机构的研究成果,突显了内容上的权威性优势、算法上的精准度优势、知识图谱构建的系统性优势。 http://www.xinhuanet.com/enterprise/20220803/59cef15ff0574d0bb657af4dc7687d88/c.html
13.图分析与学习算法自动驾驶技术……这两位人大学子,获奖降低大规模图分析与学习算法的复杂度 创造自动驾驶技术多任务通用模型 …… 每一项科研成果的背后 都是无数个日夜的辛苦与坚持 近日,中国人民大学信息学院2019级直博生王涵之、2020届硕士毕业生丁明宇与来自香港大学、清华大学、上海交通大学、南京大学、斯坦福大学、华盛顿大学、加州大学洛杉矶分校的8名学子一同获得了第https://t.m.youth.cn/transfer/index/url/tech.youth.cn/wzlb/202201/t20220129_13411740.htm
14.中职数学高一教学计划(精选11篇)每个知识点都用实际问题因如,然后研究问题的算法,最后给出必要的练习。通过不断渗透算法思想,逐步培养学生应用算法解决问题的意识和能力。 3.增加较大的使用弹性 考虑中等职业学校专业的多样性,各对数学能力的要求也不相同,教学要求给出了较大的选择范围,增加了教学的弹性。 https://www.unjs.com/jiaoxuejihua/202204/5034426.html