数据挖掘主要解决的四类问题互联网数据资讯网199IT中文互联网数据研究资讯中心

数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:

1、分类问题

分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。

举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上海人,那么这个问题就属于分类问题;如果你对朋友说:我猜这个人的年龄在30岁左右,那么这个问题就属于后面要说到的预测问题。

2、聚类问题

聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。

聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是……”,实际上这是一个聚类问题,但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。

聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

如需了解细节,请查阅:聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离等知识。

3、关联问题

说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为MarketBasketAnalysis。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。

4、预测问题

此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。

例如天气预报预测明天的气温、国家预测下一年度的GDP增长率、电信运营商预测下一年的收入、用户数等?

相对来说,用于预测问题的回归分析在商业中的应用要远远少于在医学、心理学、自然科学中的应用。最主要的原因是后者是更偏向于自然科学的理论研究,需要有理论支持的实证分析,而在商业统计分析中,更多的使用描述性统计和报表去揭示过去发生了什么,或者是应用性更强的分类、聚类问题。

数据挖掘的应用领域

数据挖掘一开始就是面向应用而诞生的,前面说到数据挖掘主要解决四大类的问题,如果把这些问题演绎到不同的行业,我们将看到数据挖掘的应用是非常广泛的。

以我们经常接触的移动通信行业来说,结合前面提到的四大类问题,我们看看数据挖掘在通信行业都有哪些应用。

分类问题:

信用申请评分:根据用户资料评估用户是否可以授信(如预付费用户可以透支、后付费用户可以延长帐期)。

信用行为评分:根据用户过去的消费行为特征评估信用得分高低,便于调整话费透支额度或者付费帐期。

定位产品(如彩铃、WAP、增值数据业务等)目标用户:构建模型筛选产品营销的目标用户群。

聚类问题:

用户细分:选择若干指标把用户群聚为若干个组,组内特征相似、组间特征差异明显。当然用户细分的方法很多,不一定都是采用聚类方法。聚类的优点是可以综合处理多维变量,缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分,习惯上称为Pre-Define的方法。这种方法的优点是便于解释且应用性强,缺点是对业务要求比较高,划分边界比较难定,对多维变量处理有难度。

关联问题:

交叉销售:针对用户已经使用的产品和业务,向其推荐他没有使用的,但可能有兴趣的产品。交叉销售的问题从某种角度上来也可以理解为分类问题,与定位产品目标用户这个问题比较相似。

THE END
1.小白必看!大学数学建模常用工具在数学建模中,选择合适的软件工具对于提高工作效率和质量至关重要。今天,小编给小伙伴们整理了在大学学习数学建模时会经常用到的一些工具,也是准备数模比赛时必备的一些软件,学会这几个软件后,可以大大提升效率! 编程类软件 1.MATLAB: 数学建模领域必需的软件之一,它将数值https://mp.weixin.qq.com/s?__biz=MzA3NzIxNDQ3MQ==&mid=2650327550&idx=3&sn=d192ca44327ae5c7ea311bd51457cdb9&chksm=8610ac41302d8abcb3e0c3b188b82eae3ddc4468caac51fbe82017852a9b9ee21d720928f094&scene=27
2.工具推荐分析大数据最需要的Top10数据挖掘工具KNIME(Konstanz Information Miner)是基于Eclipse,用Java编写的一款开源的数据分析、报告和综合平台,拥有数据提取、集成,处理,分析、转换以及加载所需的所有数据挖掘工具。此外,它具有图形用户界面,可以帮助用户轻松连接节点进行数据处理。 它结合了数据挖掘和机器学习的各种组件,对商业情报和财务数据分析非常有帮助。此外,用https://blog.csdn.net/DONGYUXIA15810857916/article/details/78133329
3.数据科学家常用的工具有哪些?数据科学家在选择大数据、数据挖掘和数据分析工具时,更倾向于有一定生态基础的工具,这样各个工具间可以相互支持。 为了提高在大数据项目中成功的机会,选择正确的工具是非常重要的。没有一个孤立的工具能够做所有的数据分析,职业的数据专家趋向于使用不止一种相关的工具(分析中发现,数据专家平均使用5种数据分析工具)。你https://www.jianshu.com/p/ea2034a5af43
4.款常用的数据挖掘工具推荐数据在当今世界中就意味着金钱,但是因为大多数数据都是非结构化的。因此,拥有数据挖掘工具将成为帮助您获得正确数据的一种方法。 常用的数据挖掘工具 1.R R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的https://wenku.baidu.com/view/2ae98ce5bdd126fff705cc1755270722182e597c.html
5.常用的数据挖掘软件有哪些常用数据挖掘工具一般来说,数据挖掘工具根据其适用的范围分为以下两类。 1.1 通用数据挖掘工具 通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。 1.2 专用数据挖掘工具 针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑了数据、需求的特性。 https://blog.51cto.com/u_13446/9407416
6.常用数据挖掘工具有哪些?因此,从海量客户交易记录中挖掘出对流失有影响的信息,建立高效的客户流失预警体系尤为重要。 工作目标 通过对零售客户某业务线条的高价值客群进行流失分析,建立流失预警模型,挖掘出流失的主要因子,指导业务人员维系客户关系。 数据现状 本次挖掘的客群为零售客户某业务线条的高价值客群,这部分客群的数据主要存放在CRMhttps://www.zhihu.com/tardis/bd/ans/1367218041
7.下列哪个软件不是常用的教育数据挖掘工具下列哪个软件不是常用的教育数据挖掘工具 A. Weka B. Orange C. Tableau D. Echart 题目标签:挖掘工软件数据挖掘如何将EXCEL生成题库手机刷题 如何制作自己的在线小题库 > 手机使用 分享 反馈 收藏 举报 参考答案: D 复制 纠错举一反三 不同材质基体交接处表面抹灰采用加强网时,加强网与各基体的搭接宽度https://www.shuashuati.com/ti/57b88f298aaa461798ec11148d1b2cf2.html?fm=bda7f586587172850ff4360c00434ad1c8
8.50个BA分析工具第二十一个DataMining(数据挖掘)知识卡片 工具名称:Data Mining(数据挖掘) 工具介绍:Data Mining最早是用在数据仓库中,而现在已经不局限于数据仓库了通过发现有用的模式和数据来提升我们的决策水平在过去的模式中,会把传统的数据库的数据通过etl或者elt汇总到数据仓库数据仓库的模型和数据库的模型是https://maimai.cn/article/detail?fid=1478662341&efid=JLgH4dfGCstru6TzScYN1A
9.数据挖掘研究(精选十篇)传统的统计学为数据挖掘提供了许多判别和回归分析方法, 常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具, 处理数据挖掘中的分类问题, 回归分析用来找到一个输入变量和输出变量关系的最佳模型, 在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线https://www.360wenmi.com/f/cnkey7ouwjk5.html
10.下列哪个软件不是常用的教育数据挖掘工具?()[单选题] 下列哪个软件不是常用的教育数据挖掘工具?() A.Weka B.Orange C.Tableau D.Echart答案 查看答案发布时间:2022-05-22 更多“下列哪个软件不是常用的教育数据挖掘工具?()”相关的问题 第1题 选项中,哪个工具不是常用的性能分析软件?() A.wireshark B.webwatch C.httpwatch D.outlook 点击查看答案https://www.xuesai.cn/souti/P464QA4Q.html
11.业务数据分析库有哪些系统数据仓库是一种专门用于存储企业历史信息的大型数据库系统。数据仓库的主要作用是收集公司已有的数据,对其进行清洗、处理和建模,将数据转化成有用的信息以便企业决策。常用的数据仓库系统有or某ale、某m某、teradata等。 2. 数据挖掘工具 数据挖掘工具用于发现数据中的隐藏模式和规律。这些工具可帮助企业进行数据分析并进https://h.chanjet.com/ask/3d8d1a710df0a.html
12.数据挖掘可以使用哪个工具帆软数字化转型知识库数据挖掘可以使用哪些工具? 数据挖掘是一个复杂的过程,涉及到从大量数据中提取有价值的信息和模式。为了实现这一目标,有许多工具可供选择,这些工具各具特色,适用于不同的需求和环境。以下是一些常用的数据挖掘工具: RapidMiner:RapidMiner 是一个强大的数据挖掘和机器学习平台,提供了一个用户友好的界面,适合不具备编程https://www.fanruan.com/blog/article/587026/
13.数据挖掘:实用案例分析(豆瓣)按有用程度 按页码先后 最新笔记 展开 常用的建模工具 春夜雨寒 3.3 常用的建模工具 数据挖掘[插图]是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断地磨合才能取得成功。因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点: 可产生https://www.douban.com/isbn/978-7-111-42591-5/
14.第四范式招聘信息上海交通大学电子信息与电气工程学院1.有ACM-ICPC等程序设计竞赛参赛、获奖经历 2.精通一门编程语言,熟练使用常用算法和数据结构,对算法有较强的实现能力 3.熟悉脚本语言,有搭建使用复杂系统的能力 4.有机器学习、数据挖掘、信息检索等相关领域的理论背景,有研究或应用相关的工作经验 5.参加过机器学习与数据挖掘相关竞赛(Kaggle, KDD Cup等) https://xsb.seiee.sjtu.edu.cn/xsb/detail/2496_1696.htm