数据挖掘主要解决的四类问题互联网数据资讯网199IT中文互联网数据研究资讯中心

数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:

1、分类问题

分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结果是类别(如A、B、C三类)而不是一个具体的数值(如55、65、75……)。

举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个人是个上海人,那么这个问题就属于分类问题;如果你对朋友说:我猜这个人的年龄在30岁左右,那么这个问题就属于后面要说到的预测问题。

2、聚类问题

聚类问题不属于预测性的问题,它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。

聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是……”,实际上这是一个聚类问题,但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。

聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

如需了解细节,请查阅:聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离等知识。

3、关联问题

说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为MarketBasketAnalysis。

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提升度=80%/20%=4。

4、预测问题

此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。

例如天气预报预测明天的气温、国家预测下一年度的GDP增长率、电信运营商预测下一年的收入、用户数等?

相对来说,用于预测问题的回归分析在商业中的应用要远远少于在医学、心理学、自然科学中的应用。最主要的原因是后者是更偏向于自然科学的理论研究,需要有理论支持的实证分析,而在商业统计分析中,更多的使用描述性统计和报表去揭示过去发生了什么,或者是应用性更强的分类、聚类问题。

数据挖掘的应用领域

数据挖掘一开始就是面向应用而诞生的,前面说到数据挖掘主要解决四大类的问题,如果把这些问题演绎到不同的行业,我们将看到数据挖掘的应用是非常广泛的。

以我们经常接触的移动通信行业来说,结合前面提到的四大类问题,我们看看数据挖掘在通信行业都有哪些应用。

分类问题:

信用申请评分:根据用户资料评估用户是否可以授信(如预付费用户可以透支、后付费用户可以延长帐期)。

信用行为评分:根据用户过去的消费行为特征评估信用得分高低,便于调整话费透支额度或者付费帐期。

定位产品(如彩铃、WAP、增值数据业务等)目标用户:构建模型筛选产品营销的目标用户群。

聚类问题:

用户细分:选择若干指标把用户群聚为若干个组,组内特征相似、组间特征差异明显。当然用户细分的方法很多,不一定都是采用聚类方法。聚类的优点是可以综合处理多维变量,缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分,习惯上称为Pre-Define的方法。这种方法的优点是便于解释且应用性强,缺点是对业务要求比较高,划分边界比较难定,对多维变量处理有难度。

关联问题:

交叉销售:针对用户已经使用的产品和业务,向其推荐他没有使用的,但可能有兴趣的产品。交叉销售的问题从某种角度上来也可以理解为分类问题,与定位产品目标用户这个问题比较相似。

THE END
1.数据挖掘概念(AnalysisServices有关如何将 SQL Server 工具应用于业务方案的示例,请参阅数据挖掘基础教程。 定义问题 与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘概念流程算法与工具全解析数据挖掘工具简介数据挖掘工具是数据挖掘过程中的重要辅助手段,它们提供了丰富的数据挖掘算法和可视化功能,使得数据挖掘过程更加高效和直观。以下是一些常用的数据挖掘工具: Python:一种流行的编程语言,有丰富的数据挖掘库和工具包,如NumPy、Pandas、Scikit-learn、TensorFlow等,提供了强大的数据处理和分析能力。 https://blog.csdn.net/Echo_3wdiankang/article/details/143492282
3.智能数据挖掘:开启现代信息时代的智慧之门算法聚类数据仓库现随着物联网和大数据技术的发展,实时数据挖掘将成为趋势。企业将能够实时分析数据,快速做出决策,从而提高竞争力。 3. 自动化数据挖掘 3. Automated Data Mining 自动化数据挖掘工具的出现,将降低数据分析的门槛,使得更多的企业能够利用数据挖掘技术。通过自动化,数据挖掘的效率和准确性将大幅提高。 https://www.163.com/dy/article/JEQ1N6SJ0512BOIV.html
4.数据挖掘用哪些工具做帆软数字化转型知识库数据挖掘可以使用R、Python、RapidMiner、KNIME、Weka、SAS、SQL、Hadoop、Tableau、SPSS等工具。其中,Python是最受欢迎的工具之一,因为其强大的库和社区支持使得数据挖掘过程更加高效。Python 拥有丰富的第三方库,如 pandas、NumPy、scikit-learn 和 TensorFlow,这些库提供了从数据预处理到复杂模型构建的全方位支持。Pythonhttps://www.fanruan.com/blog/article/576876/
5.数据挖掘一般用什么工具?数据挖掘工具的选择应考虑到数据量、任务类型、技能水平和预算等因素。开源工具如Python和R提供了广泛的功能和灵活性,适用于从数据清洗到建模的全过程。商业工具如FineBI提供了强大的可视化和报告功能,适用于业务用户和数据分析师。对于大规模数据集和分布式计算,Apache Hadoop和Spark是不可或缺的选择。选择合适的工具可https://www.finebi.com/da/sjwjgj
6.一文读懂数据挖掘建模预测那么,对于普通人来说还有没有什么办法不学这些晦涩难懂的知识也能做数据挖掘呢? 答案是,有的。那就是利用工具,自动数据挖掘工具。自动数据挖掘工具将建模所需要知识和流程整合起来,这样就可以利用前人的知识自动建模和预测了。借助自动建模工具,我们只需要完成业务理解,数据准备过程,剩下的难度较大,并且需要反复迭代https://c.raqsoft.com.cn/article/1646026122841
7.写论文数据分析工具是什么写论文数据分析工具是什么 问:数据分析的常见工具有哪些? 答:1、数据处理工具:Excel ,在有些公司也会有数据产品经理、数据挖掘工程师等等。他们最初级最主要的工具就是Excel。有些公司也会涉及到像Visio,Xmind、PPT等设计图标数据分析方面的高级技巧。数据分析师是一个需要拥有较强综合能力的岗位,因此,在有些互联https://www.igaichong.com/article/900fae15db93d6a5682e4aa2.html
8.什么是数据挖掘和KDD·MachineLearningMastery博客文章翻译您了解到机器学习是数据挖掘中使用的工具,数据挖掘实际上是数据库或KDD中知识发现过程中的一个步骤,并且它已经成为术语的同义词,因为它更容易说。 您了解到,当您从事机器学习项目时,您可能正在执行某种形式的KDD流程,其具体目标是解决问题而不是进行发现。 https://www.kancloud.cn/apachecn/ml-mastery-zh/1951996
9.BI系统是什么BI系统的定义详细介绍挖掘算法自然而然用R啊,多强大多专业,不过呵呵,有一定的上手难度,还需要动背后的统计原理,自己设计模型。一直期待有傻瓜式的数据挖掘工具,只要了解比如“聚类”,点一下就给自动的分割数据分好类。FineBI里面目前了解到有五类自动化的挖掘算法:时间序列、聚类、分类、回归和关联规则。 https://www.bnocode.com/article/xtbk60.html
10.湖南省统计局算法和建模作为数据挖掘工具的核心技术从它诞生之日起就在得到不断完善,而在最近两年,也有一些新的技术和应用热点开始引起人们的关注,比如文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。 “文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。文本http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
11.50个BA分析工具第二十一个DataMining(数据挖掘)知识卡片 工具名称:Data Mining(数据挖掘) 工具介绍:Data Mining最早是用在数据仓库中,而现在已经不局限于数据仓库了通过发现有用的模式和数据来提升我们的决策水平在过去的模式中,会把传统的数据库的数据通过etl或者elt汇总到数据仓库数据仓库的模型和数据库的模型是https://maimai.cn/article/detail?fid=1478662341&efid=JLgH4dfGCstru6TzScYN1A
12.大数据智能计算与数据挖掘技术大数据挖掘算法与应用7.常用的数据挖掘工具 1.机器学习PAI: 2. SAS 3.Stata 4.Python 5.IBM SPSS Modeler 6.Wake 7.R语言 8.MATLAB 8.特征工程 1.特征工程定义: 2.特征工程的作用: 9.数据挖掘的演变 10.举例说明你身边的数据挖掘应用实例 1.数据挖掘的定义 学术界对数据挖掘的定义为:通过相关算法从大量的数据中搜索隐藏于https://blog.51cto.com/u_14230/7943483
13.12款最好用的数据挖掘工具免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务: 分类:将熟悉的结构概括为新数据的任务 聚类:在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。 http://www.360doc.com/content/22/1130/12/81182751_1058223585.shtml
14.数据分析中的数据挖掘需要哪些工具数据分析中的数据挖掘需要以下工具:一、数据库管理工具;二、ETL工具;三、数据可视化工具;四、统计分析工具;五、机器学习工具;六、自然语言处理工具;七、大数据处理工具;八、Web爬虫工具;九、时间序列分析工具;十、图像处理工具;十一、数据挖掘工具。 一、数据库管理工具 https://www.linkflowtech.com/news/1596
15.什么是BI工具?BI工具(Business Intelligence Tool)是一种用于管理和分析企业数据的软件工具。它可以从多个数据源获取和整合数据,进行数据挖掘和分析,并将分析结果以报表、图表等方式呈现出来,帮助企业快速了解业务状况、识别问题和机会,并做出决策。 BI工具主要具有以下特点: https://www.parllay.cn/resources/35122.html
16.数据仓库服务DWS什么是数据仓库服务数据加载工具、ETL(Extract-Transform-Load)工具、以及商业智能BI工具、数据挖掘和分析工具,均可以通过标准接口与GaussDB(DWS) 集成。GaussDB(DWS)兼容PostgreSQL生态,且SQL语法进行了兼容Oracle和Teradata的处理。应用只需做少量改动即可向GaussDB(DWS)平滑迁移。 https://ecloud.10086.cn/op-help-center/doc/article/32102
17.RapidMinerStudio绿色版RapidMiner Studio是一款非常专业的数据挖掘图形化工具,具有1500多种机器学习算法和函数的库,这款工具的主要作用是帮助用户用户免费提供数据挖掘技术和类库,包括客户流失预测,欺诈检测,预测性维护等。有着非常大程度上的先进技术,最大特色就是图形用户界面的互动原型。 http://www.winwin7.com/soft/38748.html