数据挖掘方法案例介绍

※图中矩形表示一个拆分节点,矩形中文字是拆分条件。

※矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于32岁的133个事例,年龄在39和67岁之间的602个事例,年龄32和39岁之间的229个事例。所以第一次拆分后,年龄在39和67岁的节点颜色最深,年龄大于67岁的节点颜色最浅。

※节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>=67”节点中,包含36个事例,其中28个没有购买自行车,8个购买了自行车,所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车,有23.01%的概率购买自行车。

在图中,可以找出几个有用的节点:

1.年龄小于32岁,居住在太平洋地区的会员有72.75%的概率购买自行车;

2.年龄在32和39岁之间的会员有68.42%的概率购买自行车;

3.年龄在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有66.08%的概率购买自行车;

4.年龄小于32岁,不住在太平洋地区,上班距离在1公里范围内的会员有51.92%的概率购买自行车;

第一步,建立模型,确定数据表中哪些列是要用于输入,哪些是用于预测,选择用何种算法。这时建立的模型内容是空的,在模型没有经过训练之前,计算机是无法知道如何分类数据的。

第二步,准备模型数据集,例子中的模型数据集就是1000个会员数据。通常的做法是将模型集分成训练集和检验集,比如从1000个会员数据中随机抽取700个作为训练集,剩下300个作为检验集。

第三步,用训练数据集填充模型,这个过程是对模型进行训练,模型训练后就有分类的内容了,像例子图中的树状结构那样,然后模型就可以对新加入的会员事例进行分类了。由于时效性,模型内容要经常更新,比如十年前会员的消费模式与现在有很大的差异,如果用十年前数据训练出来的模型来预测现在的会员是否会购买自行车是不合适的,所以要按时使用新的训练数据集来训练模型。

第四步,模型训练后,还无法确定模型的分类方法是否准确。可以用模型对300个会员的检验集进行查询,查询后,模型会预测出哪些会员会购买自行车,将预测的情况与真实的情况对比,评估模型预测是否准确。如果模型准确度能满足要求,就可以用于对新会员进行预测。

NaveBayes是一种由统计学中Bayes法发展而来的分类方法。

有A、B两个政党对四个议题进行投票,A政党有211个国会议员,B政党有223个国会议员。下表统计了政党对四个议题赞成或反对的票数。

国家安全法

个人财产保护法

遗产税

反分裂法

总计

赞成

反对

A政党

166

87

114

184

11

178

23

211

B政党

214

4

6

172

210

223

20%

80%

43%

57%

94%

6%

89%

11%

49%

98%

2%

97%

3%

83%

17%

99.50%

0.50%

51%

A政党的议员有20%概率赞成国家安全法,43%概率赞成个人财产保护法,94%概率赞成遗产税,89%概率赞成反分裂法。

B政党的议员有98%概率赞成国家安全法,97%概率赞成个人财产保护法,83%概率赞成遗产税,99.5%概率赞成反分裂法。

基于这样的数据,NaveBayes能预测的是如果一个议员对国家安全法投了赞成票,对个人财产保护法投了反对票,对遗产税投了赞成票,对反分裂法投了赞成票。哪么,这个议员有多大的概率属于A政党,又有多少的概率属于B政党。

例2

一个产品在生产后经检验分成一等品、二等品、次品。生产这种产品有三种可用的配方,两种机器,两个班组的工人。下面是1000个产品的统计信息。

配方

机器

工人

配方1

配方2

配方3

机器1

机器2

班组1

班组2

一等品

47

110

121

255

130

148

278

二等品

299

103

165

392

175

327

240

567

次品

74

25

56

69

86

38

117

155

16.91%

39.57%

43.53%

8.27%

91.73%

46.76%

53.24%

27.80%

52.73%

18.17%

29.10%

69.14%

30.86%

57.67%

42.33%

56.70%

47.74%

16.13%

36.13%

44.52%

55.48%

24.52%

75.48%

15.50%

使用NaveBayes模型,每次在制定生产计划,确定生产产品所用的配方、机器及工人,便能预测生产中有多少的一等品、二等品和次品。

每个神经元节点内部包含有一个组合函数∑和激活函数f。X1,X2是其他神经元的输出值,对此神经元来说是输入值,组合函数将输入值组合后传递给激活函数。激活函数经过特定的计算后得到输出值y,y有被传递给其他神经元。

例如,下表是工厂生产情况。

机器数量

工人数量

生产数量

12

400

7

78

389

81

674

……

例如,服装销售公司要根据各地分销店面提交的计划预计实际销售量。

使用自动回归树得到上图的模型,假如山东销售店提交的计划童装数量是500套,预计销售量是-100+0.6×500=200套,按6Sigma原则,有99.97%的概率实际销售量可能是200±90套。广州提交计划童装300套,预计销售量是20+0.98×300=314±30套。广州的销售店制定的童装计划比山东的准确。

有时在分类不存在前,要将现有的事例分成几类。比如有同种材料要分类装入到各个仓库中,这种材料有尺寸、色泽、密度等上百个指标,如果不熟悉材料的特性很难找到一种方法将材料分装。

又例如,银行刚开始信用卡业务时,没有将客户分类,所有的客户都使用同一种信用卡。在客户积累到一定的数量后,为了方便管理和制定市场策略,需要将客户分类,让不同类别的客户使用不同的信用卡。但问题是,银行该把客户分成几个类别,谁该属于哪一类。

图中三角形的点代表客户,图中的红色线条是对客户的分类。可以看到这种不合理,第一类别没有包含任何事例,而第四类也只有少量事例,而第二和第三类分界处聚集着大量事例。

观测图像,发现大部分客户事例聚集在一起形成了三个簇,下图中用三个椭圆标出了这些簇。

同在一个簇中的客户有着类似的消费行为,黑色簇中的客户消费额与收入成正比;蓝色簇中的客户不习惯使用信用卡消费,可以对这类客户发放一种低手续费的信用卡,鼓励他们使用信用卡消费;绿色簇中的客户消费额相对收入来说比较高,应该为这类客户设计一种低透支额度的信用卡。

科学试验中,研究人员对异常点很感兴趣,通过研究不寻常的现象提出新的理论。

聚类的另一个用途是发现属性间隐含的关系。例如有30名学生考试成绩:

学号

美术

语文

物理

历史

英语

音乐

数学

化学

31001

50

89

61

53

65

96

31002

70

88

55

92

31003

54

63

73

91

教师想知道学科之间是否有关联,如果学生某门学科成绩优秀,是否会在另一门学科上也有优势。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.数据挖掘案例分析数据挖掘应用20个案例分析数据挖掘案例分析 引言 数据挖掘是利用计算机算法从大量数据中提取有价值信息的科学。它已广泛应用于各个行业,以提高决策制定、识别趋势和优化流程。本文将探讨几个数据挖掘案例分析,展示其在现实世界中的应用。 案例1:零售业中的客户细分 ?问题:一家零售商希望了解其客户群,以便更好地针对营销活动。https://blog.csdn.net/a1234391/article/details/136669022
3.十个有趣的“大数据”经典数据挖掘案例腾讯云开发者社区十个有趣的“大数据”经典数据挖掘案例 马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了。近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。下面我们通过十个经典案例,让大家实打实触摸一把“大数据https://cloud.tencent.com/developer/article/1040544
4.漫谈数据挖掘——经典案例赏析大家好,首先很感谢数据分析网的支持,提供这样一个平台,能够和大家一起分享、交流,今天主要给大家带来3个数据挖掘的经典案例。 一、产品精细化运营之道 运营的核心在于持续性改进,运营分析需要保证数据的精确与一致性;可以容忍一定程度上准确性的偏差。那么,准确和精确有什么区别呢? https://zhuanlan.zhihu.com/p/678971125
5.数据挖掘:你必须知道的32个经典案例首页 馆藏纸本 图书详情 数据挖掘 :你必须知道的32个经典案例 出版社:电子工业出版社 ISBN:9787121351129 出版年:2018 作者:任昱衡 资源类型:图书 细分类型:中文文献 收藏单位馆藏地在架状态索书号 自动化所图书流通库已借出F713.51/ 234 5浏览量 问图书管理员 https://www.las.ac.cn/front/book/detail?id=255a02b291370428cd51a7cd5e56f076
6.数据挖掘的经典案例有哪些帆软数字化转型知识库数据挖掘的经典案例有:市场篮子分析、信用评分、客户细分、欺诈检测、预测性维护、推荐系统、社交网络分析、文本挖掘。其中,市场篮子分析尤为重要。市场篮子分析利用数据挖掘技术,通过对购物篮中商品的频繁项集进行分析,找出商品之间的关联规则。例如,超市通过分析购物数据发现,购买牛奶的顾客更倾向于同时购买面包,这一发现https://www.fanruan.com/blog/article/594537/
7.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了两种新的决策树框架LDATree和FoLDTree,它们结合了不相关线性判别分析(ULDA)和前向ULDA。这些方法能够高效地进行斜切分,处理缺失值,支持特征选择,并提供类标签和概率作为模型输出。通过在模拟和真实数据集上的评估,LDATree和FoLDTree在准确率上与随机森林相当,显示出作为传统单树方法的稳健替代方案的潜力。 https://www.bilibili.com/read/cv40067807
8.《正版书籍数据挖掘竞赛实战方法与案例许可乐清华大学出版社当当书海图书专营店在线销售正版《正版书籍 数据挖掘竞赛实战方法与案例 许可乐 清华大学出版社》。最新《正版书籍 数据挖掘竞赛实战方法与案例 许可乐 清华大学出版社》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《正版书籍 数据挖掘竞赛实战方法与http://product.dangdang.com/11885953688.html
9.数据挖掘应用(精选十篇)可视化方法是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图像、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。 4 数据挖掘的实施过程 数据挖掘的一般实施步骤如下: https://www.360wenmi.com/f/cnkeymoknlxl.html
10.数据挖掘:实用案例分析完整pdf扫描版[103MB]电子书下载《数据挖掘:实用案例分析》共12章,分三个部分。第一部分是基础篇(第1~4章),主要对数据挖掘的基本概念、应用分类、建模方法及常用的建模工具进行了介绍,并对本书所用到的数据挖掘建模平台TipDM进行了说明。第二部分是实战篇(第5~10章),以案例的形式对数据挖掘技术在金融、电信、电力、互联网、生产制造以及公共https://www.jb51.net/books/629234.html
11.数据运营是做什么(一文读懂“数据化运营”)一本好书会让人有读时恍然大悟,读后茅塞顿开的赶脚,最近我读了《数据化运营:系统方法与实践案例》这本书后就是这种感受,要是能合着《精益数据分析》一起“内服”,效果更佳,瞬间打通任督二脉,忍无可忍只好把读书笔记分享一波。提前预警!!!本文很干,请自备茶水! https://www.niaogebiji.com/article-492672-1.html
12.数据挖掘成功案例3篇.doc数据挖掘成功案例3篇.doc,数据挖掘成功案例3篇 篇一:数据挖掘应用成功案例 1电话收费和管理办法 加拿大BC省电话公司要求加拿大SimonFraser大学KDD研究组根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。 https://max.book118.com/html/2017/0118/84897835.shtm
13.数据挖掘实用案例分析PDF电子书数据挖掘 实用案例分析2016-12-14 上传大小:16.00MB 所需:50积分/C币立即下载 SPSS Modeler数据挖掘方法及应用_网盘链接下载85.25M SPSS Modeler数据挖掘方法及应用,本书主要特点: 1)以数据挖掘过程为线索介绍SPSS Modeler软件 2)数据挖掘方法,软件操作、案例分析的有机结合 3)数据挖掘方法讲解通俗,软件操作过程说明https://www.iteye.com/resource/qq_34736062-9711211
14.数据挖掘:你必须知道的32个经典案例Yami数据挖掘:你必须知道的32个经典案例, Brand: Jingdong book, Database-Yami. 100% authentic, 30-day return guarantee, authorized retailer, low price.https://www.yamibuy.com/en/goods.php?id=37352
15.研究生课程简介课程内容如下:管理研究基础—科学思维、问题提出、研究过程等;管理研究设计—理论构建、概念测量、“八股”结构及实证方法等;具体实证方法—问卷调查法、案例方法与二手数据研究等;数据的收集与处理—数据的收集、数据整理、数据的分析及统计软件使用等。通过本课程讲授、文献阅读、案例研讨与研究计划撰写,将会帮助学生https://it.uibe.edu.cn/yjsjx/pyfa_yjs/9e574703ee89482896894472223a3e3c.htm
16.数据挖掘聚类分析实例数据挖掘的常用方法、功能和一个聚类分析应用案例 在今天的博文中,笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科)。当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整。除此以外,笔者尝试学习了SMARTBI公司中的Smart Mining软件,并跟随其提供的示例教程进行了学习。为方便阅读,https://www.pianshen.com/article/74271139769/
17.李奇老师:数据分析师(用Excel玩转商业智能),CDA数据分析师出品4.销售管理分析仪制作方法介绍上 4.销售管理分析仪制作方法介绍下 第五周练习题 第五周练习题答案 第五周练习题答案及讲解 06第六周 统计分析基础及简单数据挖掘案例 1 1.描述性分析 1.描述性分析 6.1描述性分析上 6.1描述性分析下 2 2.浅谈回归分析 2.浅谈回归分析 2.浅谈回归分析 3 3.浅谈数据挖掘 第https://www.vipc6.com/338.html
18.临床研究数据分析与优质SCI论文写作发表培训班模块五 数据挖掘方法——分类与聚类 1、 分类的概念及分类的性能与评估 2、 决策树与随机森林分类器的构建及R软件实现 3、 决策树与随机森林结果的可视化 4、 主成分分析及应用主成分分析绘制分类图 5、 聚类的概念及常用聚类方法(K均值聚类与系统聚类) https://meeting.dxy.cn/article/616129
19.聚类分析在电商推荐系统中的应用案例数据挖掘技术在提高用户满意数据挖掘技术在提高用户满意度的实践 如何利用聚类分析提升电商平台的个性化推荐? 首先,了解客户行为是实现个性化推荐的关键。通过对历史交易和浏览记录进行深入分析,我们可以识别出不同客户群体的购买偏好。这就需要一种能够有效分类和分组这些复杂数据集的手段,而聚类分析正是这样一种工具。 https://www.topnu.cn/shang-ye-yan-jiu/151060.html
20.干货▏面向大数据的时空数据挖掘如上所述,时空数据挖掘的应用非常广泛,如交通运输、地质灾害监测与预防、气象研究、竞技体育、犯罪分析、公共卫生与医疗及社交网络应用等。这里我们简单介绍两个时空数据挖掘的应用案例,借此了解一下时空数据挖掘在现实生活中的实际应用。 案例一 - 时空数据分析预测 https://czj.guiyang.gov.cn/new_site/zwgk_5908373/zszc_5908415/202205/t20220531_74514473.html