数据挖掘的10大算法我用大白话讲清楚了,新手一看就懂

一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。

数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。

由于网上上很多关于数据挖掘算法的介绍都十分的深奥难懂,今天我就给大家用简单的大白话来介绍一下数据挖掘十大经典算法原理,帮助大家快速理解。

(1)核心思想

当一篇论文被引用的次数越多,证明这篇论文的影响力越大。同理可引申为一个网页的入口越多,入链越优质,网页的质量越高。

(2)原理

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问,所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。

(3)比喻说明

店铺的经营:顾客比较多的店铺质量比较好,但是要看看顾客是不是托。

(4)关于阻尼因子

(5)出链例子

hao123导航网页,出链极多入链极少。

(6)入链例子

百度谷歌等搜索引擎,入链极多出链极少。

关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。

支持度

某个商品组合出现的次数与总次数之间的比例。5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8。5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。

置信度

购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少。买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5。买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0.67。

提升度

衡量商品A的出现,对商品B的出现概率提升的程度。提升度(A->B)=置信度(A->B)/支持度(B)。提升度>1,有提升;提升度=1,无变化;提升度<1,下降。

频繁项集

项集:可以是单个商品,也可以是商品组合。频繁项集是支持度大于最小支持度(MinSupport)的项集。

(3)计算过程

(4)比喻说明:啤酒和尿不湿摆在一起销售

沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。

(1)原理

简单的说,多个弱分类器训练成为一个强分类器。将一系列的弱分类器以不同的权重比组合作为最终分类选择。

(2)计算过程

利用错题提升学习效率

做正确的题,下次少做点,反正都会了。做错的题,下次多做点,集中在错题上。随着学习的深入,做错的题会越来越少。

合理跨界提高盈利

苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益。

决策就是对于一个问题,有多个答案,选择答案的过程就是决策。C4.5算法是用于产生决策树的算法,主要用于分类。C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。

C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。

(3)比喻说明:挑西瓜。

拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。

(1)概念介绍

CART

ClassificationAndRegressionTree,中文叫分类回归树,即可以做分类也可以做回归。

什么是分类树、回归树?

回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。

CART分类树

与C4.5算法类似,只是属性选择的指标是基尼系数。基尼系数反应了样本的不确定度,基尼系数越小,说明样本之间的差异性小,不确定程度低。分类是一个不确定度降低的过程,CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。

CART回归树

采用均方误差或绝对值误差为标准,选取均方误差或绝对值误差最小的特征。

朴素贝叶斯是一种简单有效的常用分类算法,计算未知物体出现的条件下各个类别出现的概率,取概率最大的分类。

假设输入的不同特征之间是独立的,基于概率论原理,通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)。

(3)比喻说明:给病人分类。

给定一个新病人,是一个打喷嚏的建筑工人,计算他患感冒的概率。

SVM

SupportVectorMachine,中文名为支持向量机,是常见的一种分类方法,最初是为二分类问题设计的,在机器学习中,SVM是有监督的学习模型。

什么是有监督学习和无监督学习?

找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。

机器学习算法中最基础、最简单的算法之一,既能分类也能回归,通过测量不同特征值之间的距离来进行分类。

计算待分类物体与其他物体之间的距离,对于K个最近的邻居,所占数量最多的类别,预测为该分类对象的类别。

(3)计算步骤

(4)比喻说明:近朱者赤,近墨者黑。

K-means是一个聚类算法,是无监督学习,生成指定K个类,把每个对象分配给距离最近的聚类中心。

选老大

Kmeans和Knn的区别

Kmeans开班选老大,风水轮流转,直到选出最佳中心老大。Knn小弟加队伍,离那个班相对近,就是那个班的。

EM的英文是ExpectationMaximization,所以EM算法也叫最大期望算法,也是聚类算法的一种。

EM和K-Means的区别:

先估计一个大概率的可能参数,然后再根据数据不断地进行调整,直到找到最终的确认参数。

(3)比喻说明:菜称重。

很少有人用称对菜进行称重,再计算一半的分量进行平分。大部分人的方法是:

10大算法都已经说完了,其实一般来说,常用算法都已经被封装到库中了,只要new出相应的模型即可。

post2020-12-2514:13:03

2021开源BI软件排行榜

2021年商业智能BI发展趋势

2021商业数据分析软件有哪些

2021主流的数据可视化工具有哪些

2023年10大BI工具排行

浏览:76088

浏览:67187

浏览:65397

浏览:64702

浏览:56802

浏览:55103

内含200+数据可视化分析Demo,各场景分析模型和指标体系,给您的数据分析提供参考

THE END
1.大数据分析算法综述在大数据时代,数据挖掘和分析成为了从海量数据中提取有价值信息的关键技术。以下是一些常用的大数据分析算法,它们在不同的场景下发挥着重要作用。 1. 聚类算法 聚类算法是无监督学习算法的一种,主要用于将数据集中的样本根据相似性划分为多个类别或群组。其中,K-均值算法是聚类算法中最为常见的一种,它通过最小化每个https://blog.csdn.net/2401_83449341/article/details/144412105
2.大数据分析中常用的算法有哪些?大数据分析中常用的算法有哪些? 收藏 大数据分析是指通过处理和分析大规模数据集来提取有价值的信息和洞察力,以支持决策和解决问题。在大数据分析中,有许多常用的算法被广泛应用。以下是一些常见的大数据分析算法: 线性回归:线性回归是一种基本的统计分析方法,用于建立一个线性模型来描述变量之间的关系。在大数据分析中https://www.cda.cn/view/203010.html
3.大数据分析的常用算法有哪些帆软数字化转型知识库大数据分析的常用算法包括:回归分析、分类分析、聚类分析、关联规则、时间序列分析、决策树、随机森林、支持向量机(SVM)、神经网络、主成分分析(PCA)。其中,回归分析是一种重要的统计方法,用于确定变量之间的关系。在大数据分析中,回归分析可用于预测和建模。例如,电商平台可以通过回归分析预测未来的销售趋势,从而优化库存https://www.fanruan.com/blog/article/78585/
4.大数据分析数学公式大全mob64ca12dd455e的技术博客大数据分析中的数学公式与应用 在当今数字化的时代,大数据分析已成为各行各业不可或缺的一部分。从金融、医疗到社交媒体,数据的海洋为我们提供了丰富的洞见。本文将探讨一些大数据分析的基础数学公式,并通过代码示例来进行具体演示。 1. 大数据分析的基本数学公式 https://blog.51cto.com/u_16213352/11912375
5.大数据分析的常用算法大数据处理算法研究与实现.pdf大数据分析的常用算法大数据处理算法研究与 实现 大数据处理算法研究与实现 摘要:在适应了不同的环境的企业的发展的条下,提供有包括 企业或具有确定相对运动的构的组合等在互联网上注册的名称, 是互联网比较重要的部分、成套的设备、系统控制在内的完整的 网络平台服务。构建有自己的电子商务寄放平台,大数据是我国 重要https://m.book118.com/html/2021/0812/8007117002003133.shtm
6.大数据分析的常用方法有大数据分析的常用方法有 简介 大数据分析的常用方法有 方法/步骤 1 神经网络方法:神经网络可用于数据挖掘的分类、聚类、特征挖掘、预测和模式识别等方面,在数据挖掘中占有举足轻重的作用。起初,神经网络在数据挖掘中的应用未被看好,其主要原因是神经网络具有结构复杂、可解释性差、训练时间长等缺陷。但其对噪声https://jingyan.baidu.com/article/22a299b5f18a79df18376a66.html
7.数据采集复习题作用:快速地大规模查询,分析和转换数据 特点:运行速度快,易用性好,通用性强,被优化为在内存中运行。 比较:Spark的MapReduce的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习 等需要迭代的map reduce的算法。 https://www.skycaiji.com/aigc/ai1303.html
8.人工智能快速发展趋势下,中国该如何应对?尽管我国在数据、算力、算法及模型的基础层资源与研究积累日益丰富,为开展下游人工智能场景创新应用打下了坚实基础,但在应用场景上仍存在“对场景创新认识不到位,重大场景系统设计不足,场景机会开放程度不够,场景创新生态不完善”等问题。为此,2022年,我国陆续出台一系列指导意见及通知,持续加强对人工智能场景创新工作的https://developer.aliyun.com/article/1179745
9.大数据:分类算法深度解析在大数据时代,处理海量数据并从中提取有用信息变得至关重要。分类算法是机器学习领域的核心,它们在大数据分析、模式识别和决策支持等方面发挥着关键作用。本文将深度解析大数据分类算法,包括其基本原理、常见算法、应用场景以及未来发展方向。 1. 背景 随着社会数字化程度的提高,大数据的快速增长成为了当今时代的一大趋势。http://www.360doc.com/content/24/0112/20/78411425_1110858832.shtml
10.大数据分析中的算法(2024年春季)本课程考核包括平时作业和程序,期中考试,期末大项目,请谨慎选课 上课地点:二教401 外院系本科生未选上课的同学请邮件和微信告知学号 2020年春季课程回放视频 华文慕课平台,点击此链接 课程代码:00136720 (本科生),00100863 (本研合) 课程内容: 侧重数据分析中的数值代数和最优化算法 http://faculty.bicmr.pku.edu.cn/~wenzw/bigdata2024.html
11.大数据常用的各种算法而到了大数据时代,几百TB甚至上PB的数据在分析师或者老板的报告中,就只是几个数字结论而已。在数数的过程中,数据中存在的信息也随之被丢弃,留下的那几个数字所能代表的信息价值,不抵其真实价值之万一。过去十年,许多公司花了大价钱,用上了物联网和云计算,收集了大量的数据,但是到头来却发现得到的收益并没有https://www.jianshu.com/p/1e43bfd0487a
12.大数据分析是什么通过大数据分析算法,应该对于数据进行一定的推断,这样的数据才更有指导性。 在大数据时代,大数据分析价值不可估量。在防伪行业中,大数据分析可为企业实现更优质的服务;在企业中,大数据分析为企业决策者以及监管部门提供决策参考,也可帮助企业更准确找到自身定位和发展方向。https://www.linkflowtech.com/news/2090
13.年薪50万!北航合肥创新研究院招募研究员!澎湃号·政务4、了解CV、机器学习、深度学习或强化学习、大数据分析等常用算法及模型,具备较强的编程能力,熟悉Tensorflow等机器学习平台; 5、有重大基础研究和应用研究经验者以及具备产学研合作和科技成果转化经验者优先; 6、能紧跟自身科研领域的发展方向,具有较强的团结协作、拼搏奉献精神,能够协助团队负责人开展科研管理工作。 https://www.thepaper.cn/newsDetail_forward_4985535