学习笔记2:数据挖掘流程探索

从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

CRISP-DM(cross-industrystandardprocessfordatamining),即为“跨行业数据挖掘标准流程”。此KDD过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%。一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。

上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布之后一个数据挖掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。具体步骤如下:

事实上,就方法学而言,CRISP-DM并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准。

SEMMA包含S(sample)、E(explore)、M(modify)、M(model)和A(access)共五个部分。他们在数据挖掘的流程中又起到各自不同的作用。限于篇幅,主要概括如下:

1.Sample──数据取样

2.Explore──数据特征探索、分析和处理

3.Modify──问题明确化、数据调整和技术选择

通过上述两个步骤的操作,对数据的状态和趋势可能有了进一步的了解。对原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。没有问题的进一步明确,就无法进行有效的数据挖掘操作。需要注意的是:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。

4.Model──模型的研发、知识的发现

这一步是数据挖掘工作的核心环节。按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决策树……等。

5.Assess──模型和知识的综合解释和评价

从上述过程中将会得出一系列的分析结果、模式或模型。同一个数据源可以利用多种数据分析方法和模型进行分析,ASSESS的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。若能从模型中得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上做出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。

AOSP-SM(即'应用为导向的敏捷挖掘标准流程'的缩写)是SMARTBI开发者们基于IBM的跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)总结而来的一种面向应用的用于指导数据挖掘工作的方法。

作为一种方法,它包含项目中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明。作为一种流程化建模方法论,AOSP-SM概述了数据挖掘的整个过程。

整个流程由五个阶段组成,阶段之间并不一定要严格遵守顺序。实际上,大多数项目都会根据需要在这些阶段之间反复中优化。AOSP-SM模型具备灵活性,并不一定完全按照这几步完成。

步骤1:商业目标

1、确定业务目标:这是我们开始数据挖掘的第一步。在我们确定是否要启动数据挖掘项目时,首先要对相应的业务进行梳理。通过对业务进行了解,可以明确业务中存在问题,以及是否可以通过数据挖掘的手段解决相应的问题。

2、评估情况:既然已经有了一个明确指定的目标,现在应该评估处于什么情况。这一步骤需要询问一些问题。

3、确定数据挖掘目标:既然已经明确了业务目标,现在应该将其转换为数据挖掘目标。

4、制定实施方案:现在,可以制定数据挖掘项目的计划了。之前询问的那些问题以及详细制定的业务和数据挖掘目标将作为这个路线图的基础。

步骤2:数据准备

2、数据审核:数据审核的工作是非常必要的,因为数据从来都不是完美的,只有保证输入的质量,才可以保证模型输出成果的可靠。

步骤3:建模

1、建模概述:数据准备主要是面向模型而准备,当制定了项目实施方案时,基本已确定分析思路和计划使用的算法。建模时通常会执行多次迭代。仅使用一个模型且仅执行一次就能圆满地解答组织的数据挖掘问题,这样的情况几乎不存在。

2、选择建模技术:尽管可能已经知道哪种类型的建模方式可以尝试,但现在还无法确定使用哪个模型是最好的。

3、模型测试设计:一个好的模型不仅要准确更要稳定。为了最终测试模型的优劣,需要提前设计一个测试标准。

4、构建模型:通常我们对预判出的最好的前三种模型分别进行建模,从三种模型中分别训练出最优的模型。

5、评估模型:得到的模型是否有效,不仅要看模型的准确度,更要看模型的稳定性。同时还要安排测试工程师审核整个建模过程,保证建模的合理性,包括再次确认是否模型中引入了不合理的变量以及字段取值是否失衡。

步骤4:评估

1、评估概述:在建模阶段构建的模型从技术上说是正确而且有效的。但是,前面的模型还不能直接运用到商业中去。还应该使用在项目开始时设立的业务成功标准评估模型。

3、确定后续步骤:至今为止,已经生成了结果并且评估了的数据挖掘过程,这一阶段将帮助根据数据挖掘业务目标回答上述问题。

步骤5:应用

1、概述:数据挖掘可以生成两种类型的成果:在前期阶段中选定的最终模型;从模型本身以及数据挖掘过程中得出的任意结论或推论,包括派生的一些重要的KPI指标、数据质量或业务流程优化方案、未来规划等。

3、执行方案:在系统试运行结束后,可以正式将挖掘成果运用到商业环境中,为企业创造价值。

注:本文正文部分分别由整理谭磊《大数据挖掘》、SAS_Miner博客《SAS数据挖掘方法论─SEMMA》和SMARTBI教学资料而来,仅作学习笔记以供学习之用。

THE END
1.机器学习特征工程,全面指南!51CTO博客算法:用于实现特定机器学习技术的具体过程。线性回归等。 模型:应用于数据集的算法,包括其设置(其参数)。Y=4.5x+0.8等。我们希望模型能够最好地捕捉特征与目标之间的关系。 监督学习:用标记数据训练模型,以生成对新数据响应的合理预测。 无监督学习:用未标记的数据训练模型,以发现数据中的内在结构/模式。 强化学习https://blog.51cto.com/u_15671528/12853750
2.1.如果一个数据挖掘的项目采用的是semma过程方法,在完成了数据抽样1.SEMMA数据挖掘过程 著名的SAS数据挖掘项目方法论中,将数据挖掘项目整体过程定义为:定义业务问题、系统环境评估、数据准备、挖掘数据SEMMA、模型实施、回顾与评价,其中挖掘数据SEMMA是核心过程,包括抽样Sample、探索Explore、修整Modify、建模Mode以及评估Assess几个阶段,如下图。 https://blog.csdn.net/helunqu2017/article/details/118873586
3.数据挖掘与分析的六种经典方法论4、AOSP-SM模型 AOSP-SM是ApplicationOriented StandardProcess for Smart Mining 的首字母缩写,翻译成中文是“应用为导向的敏捷挖掘标准流程”,它是思迈特公司(SMARTBI)基于跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)两种方法论总结而来的一种面向应用的用于指导数据挖掘工作的方法。 https://www.niaogebiji.com/article-30475-1.html
4.决策支持范文12篇(全文)决策的制定需要靠信息来支持, 科学的决策制定过程的每一个环节都离不开信息。院校研究的基本职能是对学校及相关环境信息的搜集与描述, 并科学地分析、处理这些数据。院校研究人员可以在数据分析的基础上为高校领导者提供有价值的决策信息, 提供专业的决策咨询, 避免领导者凭感觉和经验盲目决策。信息的作用不仅仅是直接https://www.99xueshu.com/w/ikeyjh4jnnfy.html
5.SAS(精选十篇)数据的传输过程是以帧的形式进行的,传输之前也必须先建立连接。对于SSP帧来说,如图3,每个SSP帧在传输过程中是由若干个Dword(双字)组成的,每个帧的前端都会加入一个SOF(Start Of Frame primitive,帧传输开始原语),并在结尾加上CRC效验和EOF(End Of Frame primitive,帧传输结束原语)。对于STP帧来说,SAS是支持SATAhttps://www.360wenmi.com/f/cnkeyof7b8ru.html
6.数据挖掘及其在金融中的应用简单的讲就是从大量实际的数据中挖掘非平凡知识的过程。平凡知识通常就是指哪些常识或大多数人都清楚的知识。一个形象的比喻,数据挖掘就好比企业的诊断医生和指南针,能从企业的业务数据中发现企业的问题所在,并辅助决策者指明决策的方向。 数据挖掘的其他称谓:从数据中挖掘知识、知识提取、数据库中知识发现、数据/模式https://www.jianshu.com/p/474504df2bdd
7.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn数据挖掘算法的类型 应用算法 算法详细信息 请参阅 “数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
8.湖南省统计局SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架,这些任务包括五个主要的步骤,亦即采样(S),探索(E),修改(M),建模(M)和评估(A)。此外,专业工具厂商美国 Unica 公司的 Affinium Model 的最大优点也是体现在最大限度地将数学建模过程自动化 ,使得那些数学基础不好的业务人员可以方便地使用这个工具。http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
9.数据挖掘论文精品[15篇]无论是在学校还是在社会中,大家都尝试过写论文吧,论文的类型很多,包括学年论文、毕业论文、学位论文、科技论文、成果论文等。还是对论文一筹莫展吗?下面是小编为大家收集的数据挖掘论文,欢迎大家借鉴与参考,希https://www.ruiwen.com/lunwen/7963711.html
10.数据挖掘导论(2002.10.31)很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步的进行数据挖掘工作。比如SPSS的5A--评估(Assess),访问(Access),分析(Analyze),行动(Act),自动化(Automate),和SAS的SEMMA--采样(Sample),探索(Explore),修正(Modify),建模(Model),评估(Assess)。最近,一些软件供应商和用户https://doc.mbalib.com/view/e5fc8f144c6f793cd27b2e2c500c76c7.html
11.数据分析的量表是什么?万象方舟KDD涵盖问题定义、数据获取、数据清洗、数据集成、数据挖掘、知识表示和评价等阶段。KDD量表可以帮助研究人员评估知识发现项目的完整性和有效性。 SEMMA量表(Sample, Explore, Modify, Model, Assess):SEMMA是SAS提出的一种数据挖掘过程,被广泛应用于企业数据分析项目。SEMMA包括数据抽样、数据探索、数据变换、模型建立和https://www.vientianeark.cn/qa/250524.html
12.SAS数据挖掘yiriqingSAS的数据挖掘的方法论-SEMMA SAS数据挖掘的集成软件工具--SAS/EM(Enterprise Miner) SAS帮助你进行数据挖掘 早期的计算机主要就是用来进行数据处理或称数值计算的。后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于了大量繁杂事务的在线处理,生产设备的实时控制等。在此过程中,计算机系统积累了越来越多https://www.cnblogs.com/yiriqing/articles/701616.html
13.第3章商务智能与数据挖掘.pdf商务智能与数据挖掘 高等教育出版社 2020/12/13 Sunday 四、数据挖掘过程模型 数据挖掘产生以来,经过理论和实践领域专家的不断推进,从方法论的角度 已经产生了一系列经典且得到广泛实践检验的数据挖掘过程模型,其中影响最大 的是SEMMA和CRISP-DM这两个过程模型。 SEMMA模型:SEMMA是SAS公司配合其数据挖 掘软件https://max.book118.com/html/2021/0121/5121111010003113.shtm
14.大数据介绍数据挖掘与分析精品课程4)有丰富的业务模型设计、数据分析经验,具有行业数据仓库建设、数据质量管理以及信息统计方面的成功经验 课程简介 目标收益 通过本课程的教学,使学员充分了解和认识大数据的相关知识(大数据的应用范围及相关技术思想),同时学会用主流的数据挖掘软件完成数据挖掘建模任务,使学员掌握数据挖掘方法论CRISP-DM的本质。通过几个具http://msup.cn/course/10047