数据挖掘概述——以电信业数据挖掘为例

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2011.06.18

一、认识数据挖掘

一。目前在金融服务机构、零售商、金融服务机构、制造业、电信公司、保险公司、医疗业、航空业、政府等各个领域中取得了广泛的应用。

二、数据挖掘的基本操作流程

为了规范数据挖掘的操作,行业专家根据基本操作,提出了两个流程SEMMA和CRISP-DM。CRISP-DM是跨行业数据挖掘标准流程CrossIndustryStandardProcessforDataMining的简称,CRISP-DM强调数据挖掘不只是数据的组织、呈现、分析和建模,而是一个从理解企业需求、寻求解决方案到实践检验的完整过程。CRISP-DM过程可图示如下:它采用分层方法将一个数据挖掘项目的周期定义为6个阶段,每一阶段的要点简述如下:

1.商业理解BusinessUnderstanding

这一初始阶段集中在从商业角度理解项目的目标和要求,然后理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。

2.数据理解DataUnderstanding

数据理解阶段开始于原始数据的收集,然后是熟悉数据,标明数据质量,探索对数据的初步理解,发觉有趣的子集以形成对隐藏信息的假设。

3.数据准备DataPreparation

数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(此数据集指将要嵌入建模工具中的数据)。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据的转换和清洗。

4.建模Modeling

在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题模型,会有多种模型技术。一些技术对数据格式有特殊的要求。因此,常常需要返回到数据准备阶段。

5.评估Evaluation

进入项目中的这个阶段时,你已经建立一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量,在模型发布前,很重要的一点--更彻底地评估模型和检查建立模型的各个步骤,从而使它达到真正的高质量。此阶段关键目的是决定是否存在一些重要的商业问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。

6.发布Deployment

三、数据挖掘的主要技术及软件:

数据挖掘技术有多种分类方式,比如可以分为描述性数据挖掘、预测性数据挖掘;按照应用领域进行分类,又可以分成电信行业数据挖掘、保险行业数据挖掘、商业数据挖掘、制造业数据挖掘等,

下面主要介绍最常用的有五大技术。

分类:分类是一种典型的有监督的学习方法,其目的是从一组已知类别的数据中发现分类模型,以预测新数据的类别。数据分类技术在信用卡审批、保险欺诈分析、客户流失分析等,都有广泛的应用。以保险欺诈分析为例,就是根据现有正常客户和欺诈客户的资料,分析欺诈客户的潜在特征,可以对新购买保险的客户进行分析,从而有利于企业控制风险。

预测和估计:这两种方法都是利用已知值去预测未知值,不同的是估计是横向的,预测是纵向的。比如,估计是根据顾客的教育程度、性别、工资收入来预测其消费额,预测则是根据过去的消费数据预测未来的消费额。

数据挖掘的软件,应用比较多的有以下几种:

EnterpriseMiner(SAS),在数据挖掘市场非常杰出的工具,它运用了SAS统计模型的力量和影响力,依照SEMMA的挖掘流程,抽样、探测、修改、建模、评价,提供了包括聚类、分类、关联规则、神经网络和统计回归等多种算法。

Clementine(SPSS),此分析工具结合了多种图形用户接口的分析技术,包含神经网络、决策树、聚类分析等多种算法技术,按照CRISP_DM的流程组织数据挖掘,来执行分析功能,非常适合快速掌握数据挖掘技术。

IntelligentMiner(IBM),包含了大量的数据挖掘算法,如预测、分类、关联规则、聚类等,能够处理相当大的数据量,具有强大的计算能力,并且能够方便的整合使用者的算法。

WEKA,WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是一个开源免费软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。

马可威软件,目前唯一的国产数据挖掘软件,功能比较强大,可视化的图像操作界面,整合了大量的数据挖掘算法,如神经网络算法、决策树算法、模糊聚类、关联规则、支持向量机、粗糙集、贝叶斯算法等。

还有很多如AngossSoftware开发的KS软件、Oracle的Darwin、S-PlUS等。

四、数据挖掘在电信业的应用

按照客户的生命周期分为三个阶段:客户获取阶段,客户培育及成熟阶段,客户衰退阶段

1、客户的获取阶段:

2、顾客的培育及成熟阶段:

交叉销售,是指向现有的客户提供新的产品和服务的营销过程,那些购买了某种产品和服务的客户很有可能同时购买你提供的某些感兴趣的其他产品,或者对于现有服务的升级服务比较感兴趣。这是一个双赢的局面,一方面客户能够得到更个性化,多样化的服务,另一方面,公司能够增加利润。如何才能给特定的人推荐特定的服务呢?这首先要分析客户的消费行为,建立关联规则模型,比如说长途通话行为和漫游行为,如果用户对这二者的使用较高的话,可以推荐其使用相应的套餐等。

细分客户,不同的客户有着不同的消费需求,比如学生可能对短信的需求量大,而商务人士可能对长途,漫游等通话要求高,根据这些不同的消费层次,可以对顾客进行细分。客户细分将一个大的消费群体分成若干个小的消费群体,同属于一个小的分群的消费行为相似,而隶属于不同分群的被视为不同的群体,这样电信公司就可以针对不同群体客户提出的要求来改善自己的服务,提高客户的满意度。通过这种细分还可以找到某种服务的潜在消费客户,可以针对性的营销,降低营销成本。

3、顾客的保留阶段:

客户的满意度分析,满意度是客户对公司提供产品和服务的整体感受,满意度是忠诚度的基础,只有对公司产品和服务满意度高的客户才会忠诚于公司。电信公司应当定期的对客户进行抽样调查并且结合投诉服务中心的资料,通过数据挖掘建立决策树模型、结合分析模型、因子主成分分析模型,寻找影响满意度最大的因素,这样可以使公司快速改善服务,提高客户的满意度。

客户的保留分析,客户的保留分析或者流失率分析与客户的满意度分析,有着密切的联系。那些对服务长期不满的人极有可能会放弃公司的服务。获取一个新客户的成本是留住一个老客户成本的10倍以上,因此公司为增加自己的利润,必须最大限

数据挖掘时一个整体的流程,涵盖业务的理解、数据的理解、数据的预处理、模型的建构、模型的检验及发布等,任何一个环节都要确保正确,数据挖掘需要依靠技术人员、业务人员和专家的通力合作,数据挖掘是一个团队的工作。

由于电信业数据量极大,在对特定目的进行分析时,一般要给予某一套餐类型,或者某个增值业务,并且要注意地区因素等,这样得到的结果才具有可靠性,且客户的基本信息可能缺失比较严重,在数据处理时要格外注意,与专家共同商议处理缺失值的方法。

六、结语

随着社会的进步,各行各业的竞争也越来越激烈,特别是当今经济危机爆发,如何利用企业积累的大量数据,辅助企业的决策,使企业在严酷的环境中能生存下来,数据挖掘在电信业中的应用,或许能给我们有益的启示。

THE END
1.机器学习特征工程,全面指南!51CTO博客算法:用于实现特定机器学习技术的具体过程。线性回归等。 模型:应用于数据集的算法,包括其设置(其参数)。Y=4.5x+0.8等。我们希望模型能够最好地捕捉特征与目标之间的关系。 监督学习:用标记数据训练模型,以生成对新数据响应的合理预测。 无监督学习:用未标记的数据训练模型,以发现数据中的内在结构/模式。 强化学习https://blog.51cto.com/u_15671528/12853750
2.1.如果一个数据挖掘的项目采用的是semma过程方法,在完成了数据抽样1.SEMMA数据挖掘过程 著名的SAS数据挖掘项目方法论中,将数据挖掘项目整体过程定义为:定义业务问题、系统环境评估、数据准备、挖掘数据SEMMA、模型实施、回顾与评价,其中挖掘数据SEMMA是核心过程,包括抽样Sample、探索Explore、修整Modify、建模Mode以及评估Assess几个阶段,如下图。 https://blog.csdn.net/helunqu2017/article/details/118873586
3.数据挖掘与分析的六种经典方法论4、AOSP-SM模型 AOSP-SM是ApplicationOriented StandardProcess for Smart Mining 的首字母缩写,翻译成中文是“应用为导向的敏捷挖掘标准流程”,它是思迈特公司(SMARTBI)基于跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)两种方法论总结而来的一种面向应用的用于指导数据挖掘工作的方法。 https://www.niaogebiji.com/article-30475-1.html
4.决策支持范文12篇(全文)决策的制定需要靠信息来支持, 科学的决策制定过程的每一个环节都离不开信息。院校研究的基本职能是对学校及相关环境信息的搜集与描述, 并科学地分析、处理这些数据。院校研究人员可以在数据分析的基础上为高校领导者提供有价值的决策信息, 提供专业的决策咨询, 避免领导者凭感觉和经验盲目决策。信息的作用不仅仅是直接https://www.99xueshu.com/w/ikeyjh4jnnfy.html
5.SAS(精选十篇)数据的传输过程是以帧的形式进行的,传输之前也必须先建立连接。对于SSP帧来说,如图3,每个SSP帧在传输过程中是由若干个Dword(双字)组成的,每个帧的前端都会加入一个SOF(Start Of Frame primitive,帧传输开始原语),并在结尾加上CRC效验和EOF(End Of Frame primitive,帧传输结束原语)。对于STP帧来说,SAS是支持SATAhttps://www.360wenmi.com/f/cnkeyof7b8ru.html
6.数据挖掘及其在金融中的应用简单的讲就是从大量实际的数据中挖掘非平凡知识的过程。平凡知识通常就是指哪些常识或大多数人都清楚的知识。一个形象的比喻,数据挖掘就好比企业的诊断医生和指南针,能从企业的业务数据中发现企业的问题所在,并辅助决策者指明决策的方向。 数据挖掘的其他称谓:从数据中挖掘知识、知识提取、数据库中知识发现、数据/模式https://www.jianshu.com/p/474504df2bdd
7.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn数据挖掘算法的类型 应用算法 算法详细信息 请参阅 “数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
8.湖南省统计局SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架,这些任务包括五个主要的步骤,亦即采样(S),探索(E),修改(M),建模(M)和评估(A)。此外,专业工具厂商美国 Unica 公司的 Affinium Model 的最大优点也是体现在最大限度地将数学建模过程自动化 ,使得那些数学基础不好的业务人员可以方便地使用这个工具。http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
9.数据挖掘论文精品[15篇]无论是在学校还是在社会中,大家都尝试过写论文吧,论文的类型很多,包括学年论文、毕业论文、学位论文、科技论文、成果论文等。还是对论文一筹莫展吗?下面是小编为大家收集的数据挖掘论文,欢迎大家借鉴与参考,希https://www.ruiwen.com/lunwen/7963711.html
10.数据挖掘导论(2002.10.31)很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步的进行数据挖掘工作。比如SPSS的5A--评估(Assess),访问(Access),分析(Analyze),行动(Act),自动化(Automate),和SAS的SEMMA--采样(Sample),探索(Explore),修正(Modify),建模(Model),评估(Assess)。最近,一些软件供应商和用户https://doc.mbalib.com/view/e5fc8f144c6f793cd27b2e2c500c76c7.html
11.数据分析的量表是什么?万象方舟KDD涵盖问题定义、数据获取、数据清洗、数据集成、数据挖掘、知识表示和评价等阶段。KDD量表可以帮助研究人员评估知识发现项目的完整性和有效性。 SEMMA量表(Sample, Explore, Modify, Model, Assess):SEMMA是SAS提出的一种数据挖掘过程,被广泛应用于企业数据分析项目。SEMMA包括数据抽样、数据探索、数据变换、模型建立和https://www.vientianeark.cn/qa/250524.html
12.SAS数据挖掘yiriqingSAS的数据挖掘的方法论-SEMMA SAS数据挖掘的集成软件工具--SAS/EM(Enterprise Miner) SAS帮助你进行数据挖掘 早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多https://www.cnblogs.com/yiriqing/articles/701616.html
13.第3章商务智能与数据挖掘.pdf商务智能与数据挖掘 高等教育出版社 2020/12/13 Sunday 四、数据挖掘过程模型 数据挖掘产生以来,经过理论和实践领域专家的不断推进,从方法论的角度 已经产生了一系列经典且得到广泛实践检验的数据挖掘过程模型,其中影响最大 的是SEMMA和CRISP-DM这两个过程模型。 SEMMA模型:SEMMA是SAS公司配合其数据挖 掘软件https://max.book118.com/html/2021/0121/5121111010003113.shtm
14.大数据介绍数据挖掘与分析精品课程4)有丰富的业务模型设计、数据分析经验,具有行业数据仓库建设、数据质量管理以及信息统计方面的成功经验 课程简介 目标收益 通过本课程的教学,使学员充分了解和认识大数据的相关知识(大数据的应用范围及相关技术思想),同时学会用主流的数据挖掘软件完成数据挖掘建模任务,使学员掌握数据挖掘方法论CRISP-DM的本质。通过几个具http://msup.cn/course/10047