数据挖掘主要解决的四类问题互联网数据资讯网199IT中文互联网数据研究资讯中心

数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:

1、分类问题

分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。

举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上海人,那么这个问题就属于分类问题;如果你对朋友说:我猜这个人的年龄在30岁左右,那么这个问题就属于后面要说到的预测问题。

2、聚类问题

聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。

聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是……”,实际上这是一个聚类问题,但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。

聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

如需了解细节,请查阅:聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离等知识。

3、关联问题

说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为MarketBasketAnalysis。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。

4、预测问题

此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。

例如天气预报预测明天的气温、国家预测下一年度的GDP增长率、电信运营商预测下一年的收入、用户数等?

相对来说,用于预测问题的回归分析在商业中的应用要远远少于在医学、心理学、自然科学中的应用。最主要的原因是后者是更偏向于自然科学的理论研究,需要有理论支持的实证分析,而在商业统计分析中,更多的使用描述性统计和报表去揭示过去发生了什么,或者是应用性更强的分类、聚类问题。

数据挖掘的应用领域

数据挖掘一开始就是面向应用而诞生的,前面说到数据挖掘主要解决四大类的问题,如果把这些问题演绎到不同的行业,我们将看到数据挖掘的应用是非常广泛的。

以我们经常接触的移动通信行业来说,结合前面提到的四大类问题,我们看看数据挖掘在通信行业都有哪些应用。

分类问题:

信用申请评分:根据用户资料评估用户是否可以授信(如预付费用户可以透支、后付费用户可以延长帐期)。

信用行为评分:根据用户过去的消费行为特征评估信用得分高低,便于调整话费透支额度或者付费帐期。

定位产品(如彩铃、WAP、增值数据业务等)目标用户:构建模型筛选产品营销的目标用户群。

聚类问题:

用户细分:选择若干指标把用户群聚为若干个组,组内特征相似、组间特征差异明显。当然用户细分的方法很多,不一定都是采用聚类方法。聚类的优点是可以综合处理多维变量,缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分,习惯上称为Pre-Define的方法。这种方法的优点是便于解释且应用性强,缺点是对业务要求比较高,划分边界比较难定,对多维变量处理有难度。

关联问题:

交叉销售:针对用户已经使用的产品和业务,向其推荐他没有使用的,但可能有兴趣的产品。交叉销售的问题从某种角度上来也可以理解为分类问题,与定位产品目标用户这个问题比较相似。

THE END
1.智能数据挖掘:开启现代信息时代的智慧之门算法聚类数据仓库现自动化数据挖掘工具的出现,将降低数据分析的门槛,使得更多的企业能够利用数据挖掘技术。通过自动化,数据挖掘的效率和准确性将大幅提高。 4. 可解释性 4. Interpretability 随着数据挖掘模型的复杂性增加,模型的可解释性变得越来越重要。未来的研究将集中在如何提高模型的透明度和可解释性,以便决策者能够理解分析结果。 https://www.163.com/dy/article/JEQ1N6SJ0512BOIV.html
2.数据挖掘概念流程算法与工具全解析数据挖掘工具简介数据挖掘工具是数据挖掘过程中的重要辅助手段,它们提供了丰富的数据挖掘算法和可视化功能,使得数据挖掘过程更加高效和直观。以下是一些常用的数据挖掘工具: Python:一种流行的编程语言,有丰富的数据挖掘库和工具包,如NumPy、Pandas、Scikit-learn、TensorFlow等,提供了强大的数据处理和分析能力。 https://blog.csdn.net/Echo_3wdiankang/article/details/143492282
3.数据挖掘用哪些工具做帆软数字化转型知识库数据挖掘可以使用R、Python、RapidMiner、KNIME、Weka、SAS、SQL、Hadoop、Tableau、SPSS等工具。其中,Python是最受欢迎的工具之一,因为其强大的库和社区支持使得数据挖掘过程更加高效。Python 拥有丰富的第三方库,如 pandas、NumPy、scikit-learn 和 TensorFlow,这些库提供了从数据预处理到复杂模型构建的全方位支持。Pythonhttps://www.fanruan.com/blog/article/576876/
4.常用数据挖掘工具有哪些?数据挖掘是什么 数据挖掘是对商业数据中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息的过程。数据挖掘揭示的是未知的、将来的数据关系。数据挖掘的知识领域涵盖了数据库技术、统计学知识、机器学习、可视化等多学科知识的综合应用。可以应用到营销、风控、运营各个领域中去。 https://www.zhihu.com/tardis/bd/ans/1367218041
5.什么是数据挖掘,有什么用?引入数据挖掘工具的优势之一是不需要专门的人员。即使所有的负责人都没有专门的统计知识,只要知道分析的意义和一定程度的工具使用方法,就可以轻松地操作系统。此外,工具提供者可能已经制定了培养人工智能人力资源的计划,例如学习会议和培训,因此无需雇用新的数据科学家就可以引入它也很有吸引力。 http://www.mymos.cn/blog/a6037.html
6.什么是数据挖掘和KDD·MachineLearningMastery博客文章翻译您了解到机器学习是数据挖掘中使用的工具,数据挖掘实际上是数据库或KDD中知识发现过程中的一个步骤,并且它已经成为术语的同义词,因为它更容易说。 您了解到,当您从事机器学习项目时,您可能正在执行某种形式的KDD流程,其具体目标是解决问题而不是进行发现。 https://www.kancloud.cn/apachecn/ml-mastery-zh/1951996
7.写论文数据分析工具是什么写论文数据分析工具是什么 问:数据分析的常见工具有哪些? 答:1、数据处理工具:Excel ,在有些公司也会有数据产品经理、数据挖掘工程师等等。他们最初级最主要的工具就是Excel。有些公司也会涉及到像Visio,Xmind、PPT等设计图标数据分析方面的高级技巧。数据分析师是一个需要拥有较强综合能力的岗位,因此,在有些互联https://www.igaichong.com/article/900fae15db93d6a5682e4aa2.html
8.BI系统是什么BI系统的定义详细介绍挖掘算法自然而然用R啊,多强大多专业,不过呵呵,有一定的上手难度,还需要动背后的统计原理,自己设计模型。一直期待有傻瓜式的数据挖掘工具,只要了解比如“聚类”,点一下就给自动的分割数据分好类。FineBI里面目前了解到有五类自动化的挖掘算法:时间序列、聚类、分类、回归和关联规则。 https://www.bnocode.com/article/xtbk60.html
9.湖南省统计局一句话,只要用户不是很挑剔,基本上都可以在某一家那里即可买全包括数据挖掘工具在内的全套商业智能产品。而像SAS、SPSS、StatSoft等公司虽然也宣称提供工具平台,但提供“整车”的实力有限,主要在统计分析和数据挖掘领域延伸提供尽可能多的工具组件。 ? 相对于这些挖掘工具平台,专业挖掘工具可能在市场的声势并不大,http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
10.50个BA分析工具第二十一个DataMining(数据挖掘)知识卡片 工具名称:Data Mining(数据挖掘) 工具介绍:Data Mining最早是用在数据仓库中,而现在已经不局限于数据仓库了通过发现有用的模式和数据来提升我们的决策水平在过去的模式中,会把传统的数据库的数据通过etl或者elt汇总到数据仓库数据仓库的模型和数据库的模型是https://maimai.cn/article/detail?fid=1478662341&efid=JLgH4dfGCstru6TzScYN1A
11.大数据智能计算与数据挖掘技术大数据挖掘算法与应用7.常用的数据挖掘工具 1.机器学习PAI: 2. SAS 3.Stata 4.Python 5.IBM SPSS Modeler 6.Wake 7.R语言 8.MATLAB 8.特征工程 1.特征工程定义: 2.特征工程的作用: 9.数据挖掘的演变 10.举例说明你身边的数据挖掘应用实例 1.数据挖掘的定义 学术界对数据挖掘的定义为:通过相关算法从大量的数据中搜索隐藏于https://blog.51cto.com/u_14230/7943483
12.什么是业务分析工具业务分析工具是应用程序软件的类型,它们可从一个或多个业务系统中检索数据,并将其合并到存储库(如数据仓库)中进行审查和分析。大多数组织都使用多个分析工具,包括具有统计功能的电子表格、统计软件包、复杂的数据挖掘工具以及预测建模工具。这些业务分析工具共同作用,向组织呈现全面的公司概览,提供关键的业务见解和理解,https://azure.microsoft.com/zh-cn/overview/what-are-business-analytics-tools/
13.数据分析中的数据挖掘需要哪些工具数据分析中的数据挖掘需要以下工具:一、数据库管理工具;二、ETL工具;三、数据可视化工具;四、统计分析工具;五、机器学习工具;六、自然语言处理工具;七、大数据处理工具;八、Web爬虫工具;九、时间序列分析工具;十、图像处理工具;十一、数据挖掘工具。 一、数据库管理工具 https://www.linkflowtech.com/news/1596
14.什么是BI工具?BI工具(Business Intelligence Tool)是一种用于管理和分析企业数据的软件工具。它可以从多个数据源获取和整合数据,进行数据挖掘和分析,并将分析结果以报表、图表等方式呈现出来,帮助企业快速了解业务状况、识别问题和机会,并做出决策。 BI工具主要具有以下特点: https://www.parllay.cn/resources/35122.html
15.RapidMinerStudio绿色版RapidMiner Studio是一款非常专业的数据挖掘图形化工具,具有1500多种机器学习算法和函数的库,这款工具的主要作用是帮助用户用户免费提供数据挖掘技术和类库,包括客户流失预测,欺诈检测,预测性维护等。有着非常大程度上的先进技术,最大特色就是图形用户界面的互动原型。 http://www.winwin7.com/soft/38748.html