学习笔记2:数据挖掘流程探索

从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

CRISP-DM(cross-industrystandardprocessfordatamining),即为“跨行业数据挖掘标准流程”。此KDD过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%。一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。

上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布之后一个数据挖掘的过程才可以继续。在这个过程中得到的知识可以触发新的,经常是更聚焦的商业问题。后续的过程可以从前一个过程得到益处。具体步骤如下:

事实上,就方法学而言,CRISP-DM并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准。

SEMMA包含S(sample)、E(explore)、M(modify)、M(model)和A(access)共五个部分。他们在数据挖掘的流程中又起到各自不同的作用。限于篇幅,主要概括如下:

1.Sample──数据取样

2.Explore──数据特征探索、分析和处理

3.Modify──问题明确化、数据调整和技术选择

通过上述两个步骤的操作,对数据的状态和趋势可能有了进一步的了解。对原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。没有问题的进一步明确,就无法进行有效的数据挖掘操作。需要注意的是:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。

4.Model──模型的研发、知识的发现

这一步是数据挖掘工作的核心环节。按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决策树……等。

5.Assess──模型和知识的综合解释和评价

从上述过程中将会得出一系列的分析结果、模式或模型。同一个数据源可以利用多种数据分析方法和模型进行分析,ASSESS的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。若能从模型中得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上做出选择。假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。

AOSP-SM(即'应用为导向的敏捷挖掘标准流程'的缩写)是SMARTBI开发者们基于IBM的跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)总结而来的一种面向应用的用于指导数据挖掘工作的方法。

作为一种方法,它包含项目中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明。作为一种流程化建模方法论,AOSP-SM概述了数据挖掘的整个过程。

整个流程由五个阶段组成,阶段之间并不一定要严格遵守顺序。实际上,大多数项目都会根据需要在这些阶段之间反复中优化。AOSP-SM模型具备灵活性,并不一定完全按照这几步完成。

步骤1:商业目标

1、确定业务目标:这是我们开始数据挖掘的第一步。在我们确定是否要启动数据挖掘项目时,首先要对相应的业务进行梳理。通过对业务进行了解,可以明确业务中存在问题,以及是否可以通过数据挖掘的手段解决相应的问题。

2、评估情况:既然已经有了一个明确指定的目标,现在应该评估处于什么情况。这一步骤需要询问一些问题。

3、确定数据挖掘目标:既然已经明确了业务目标,现在应该将其转换为数据挖掘目标。

4、制定实施方案:现在,可以制定数据挖掘项目的计划了。之前询问的那些问题以及详细制定的业务和数据挖掘目标将作为这个路线图的基础。

步骤2:数据准备

2、数据审核:数据审核的工作是非常必要的,因为数据从来都不是完美的,只有保证输入的质量,才可以保证模型输出成果的可靠。

步骤3:建模

1、建模概述:数据准备主要是面向模型而准备,当制定了项目实施方案时,基本已确定分析思路和计划使用的算法。建模时通常会执行多次迭代。仅使用一个模型且仅执行一次就能圆满地解答组织的数据挖掘问题,这样的情况几乎不存在。

2、选择建模技术:尽管可能已经知道哪种类型的建模方式可以尝试,但现在还无法确定使用哪个模型是最好的。

3、模型测试设计:一个好的模型不仅要准确更要稳定。为了最终测试模型的优劣,需要提前设计一个测试标准。

4、构建模型:通常我们对预判出的最好的前三种模型分别进行建模,从三种模型中分别训练出最优的模型。

5、评估模型:得到的模型是否有效,不仅要看模型的准确度,更要看模型的稳定性。同时还要安排测试工程师审核整个建模过程,保证建模的合理性,包括再次确认是否模型中引入了不合理的变量以及字段取值是否失衡。

步骤4:评估

1、评估概述:在建模阶段构建的模型从技术上说是正确而且有效的。但是,前面的模型还不能直接运用到商业中去。还应该使用在项目开始时设立的业务成功标准评估模型。

3、确定后续步骤:至今为止,已经生成了结果并且评估了的数据挖掘过程,这一阶段将帮助根据数据挖掘业务目标回答上述问题。

步骤5:应用

1、概述:数据挖掘可以生成两种类型的成果:在前期阶段中选定的最终模型;从模型本身以及数据挖掘过程中得出的任意结论或推论,包括派生的一些重要的KPI指标、数据质量或业务流程优化方案、未来规划等。

3、执行方案:在系统试运行结束后,可以正式将挖掘成果运用到商业环境中,为企业创造价值。

注:本文正文部分分别由整理谭磊《大数据挖掘》、SAS_Miner博客《SAS数据挖掘方法论─SEMMA》和SMARTBI教学资料而来,仅作学习笔记以供学习之用。

THE END
1.数据挖掘概念(AnalysisServices与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: 您在查找什么?您要尝试找到什么类型的关系? https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
3.数据从哪里来,怎么到程序里去?要获取什么数据 获取难度如何 获取到的数据质量如何 这部分在学习的时候很少注意到,我们都是用的现成的数据在做学算法、做模型。即使是参加竞赛,数据也都是现成的。 这里说说获取数据的三种方式:网络爬虫、业务数据库、公开数据。 网络爬虫 这部分我们重点说一下。因为提到获取数据,第一个数据相关的岗位出来了:爬虫https://zhuanlan.zhihu.com/p/12225918138
4.python数据挖掘算法的过程详解python这篇文章主要介绍了python 数据挖掘算法,首先给大家介绍了数据挖掘的过程,基于sklearn主要的算法模型讲解,给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下+ 目录 1、首先简述数据挖掘的过程 第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二https://www.jb51.net/article/238548.htm
5.如何从零开始构建用户画像构建用户画像包括以下几个步骤:第一步,明确用户画像构建的目的;第二步,进行数据挖掘及搜集;第三步,进行数据分析与建模;第四步,进行数据维度分解和列举。 用户画像的核心工作是给用户打“标签”。标签是高度精炼的用户描述用户属性的特征标识,如年龄、性别、地域、用户偏好等,通过综合用户的所有标签信息可勾勒出该用户https://www.linkflowtech.com/news/920
6.数据挖掘你必须得知道的聚集通常作为数据挖掘的第一步。例如,"哪一种类的促销对客户响应最好?",对于这一 类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。 · 描述和可视化(Des cription and Visualization) 是对数据挖掘结果的表示方式。 https://blog.csdn.net/RainyLin/article/details/2738546
7.什么是数据挖掘的流程?一步步带你掌握数据挖掘的完整过程数据挖掘已经成为现代商业和科技领域中不可或缺的一部分。它不仅帮助企业从海量数据中提取有价值的信息,还为决策提供了有力的支持。本文将带你详细了解数据挖掘的完整流程,从商业理解到模型部署,帮助你逐步掌握这一复杂而有趣的过程。 1. 商业理解 数据挖掘的第一步是商业理解,即明确业务目标和问题,理解项目需求。https://www.cda.cn/view/204893.html
8.数据挖掘的六个阶段是什么帆软数字化转型知识库数据挖掘的六个阶段是什么 数据挖掘的六个阶段包括:数据准备、数据清洗、数据转换、数据挖掘、模式识别、结果评估。数据准备是数据挖掘过程的第一步,这一步骤的主要目的是获取和整理数据源,使其适合后续的处理和分析。具体来说,数据准备包括收集数据、选择数据、合并数据和初步整理数据。通过数据准备,可以确保数据的完整https://www.fanruan.com/blog/article/594221/
9.数据挖掘VS机器学习,你了解多少?通过数据挖掘,通常称为数据库中的知识发现,分析大量数据和数据集以提取有意义的见解,帮助企业解决问题、预测趋势、降低风险和发现新机会。数据挖掘者在堆积如山的内容中进行筛选,寻找有价值的材料和组件,就像矿工在实际挖掘中所做的那样。 建立业务目标是数据挖掘过程中的第一步。然后,从各种来源收集信息并添加到数据仓https://www.fromgeek.com/telecom/509859.html
10.GEO数据挖掘第一期胶质母细胞瘤(GBM)GEO数据库编号:GSE4290 研究对象:lncRNA 实验设计 实验组:77个神经胶质母细胞瘤样本 对照组:23个非肿瘤样本 结论:在神经胶质母细胞瘤中PVT1和CYTOR基因表达显著上调, HAR1A和MIAT基因表达显著下调。 ◆◆◆ ◆◆ GEO数据挖掘过程 第一步 下载R包 https://www.jianshu.com/p/ab4337741cdd
11.7种常用的数据挖掘技术分享开源地理空间基金会中文分会开放什么是数据挖掘? 数据挖掘是从海量数据中提取有用信息和模式的过程。它包括数据的收集、提取、分析和统计,也被称为知识发现的过程,即从数据或数据模式分析中进行知识挖掘。这是一个寻找有用信息以找出有用数据的逻辑过程。 数据挖掘的3个步骤 探索:数据将被清除并转换为另一种形式,信息的性质也是确定的。 https://www.osgeo.cn/post/14c56
12.数据仓库和数据挖掘基础数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的,但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性,往往是不会成功的。 在定义挖掘对象时,需要确定这样的问题: 从何处入手? https://developer.aliyun.com/article/1529273
13.最好的十个数学与应用数学专业就业方向毕业后可以从事什么职业→那么,数学与应用数学专业毕业后干什么好呢,数学老师、算法工程师、数据分析师、数据挖掘工程师、大数据开发工程师、数据产品经理等数学与应用数学专业就业方向怎么样?下面买购编辑和大家一起看看。 数学老师 数学与应用数学专业毕业后干什么?做一名数学老师,是该专业最对口的职业之一。做老师是一份体面的工作,有着稳定https://www.maigoo.com/top/421953.html
14.数据挖掘的过程张杰整理数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的,可实用的信息,并使用这些信息做出决策或丰富知识。下图描述了数据挖掘的主要步骤和过程。 数据挖掘过程中各步骤的大体内容如下: 第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应https://maimai.cn/article/detail?fid=1405334297&efid=7lwV824VMzvaUfEhWMvd3A
15.关于数据挖掘的基本流程以下是对关于数据挖掘的基本流程进行的简单分析,希望可以对正在学习的同学有所帮助。 第一步,建立模型,确定数据表中哪些列是要用于输入,哪些是用于预测,选择用何种算法。这时建立的模型内容是空的,在模型没有经过训练之前,计算机是无法知道如何分类数据的。 https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_5397901_1.html
16.多尺度空间数据挖掘的地理可视化分析(修改版).doc多尺度空间数据挖掘的地理可视化分析(修改版).doc,多尺度空间数据挖掘的地理可视化分析的多尺度空间数据挖掘:第一步 计073 (10074196) 彭绚凰 摘要:我们的目标是探索在地理可视化问题中交涉,可减少人力代价的一些描述为的努力来解决地理可视化问题(例如,为了获取有https://m.book118.com/html/2021/0806/6231101154003224.shtm
17.《数据挖掘》实验项目第二步,对目标的了解以及对数据的初步处理 1、对数据挖掘的目标要有所理解,通过理解,可以进行这一步的主要分析 2、缺失值:通过对数据以及目标的理解,看看 a、是否可以直接删除该缺失数据 b、如果不能删除,用什么样的方法填充它比较好,常见的有均值,中位数,或者拉格朗日法,牛顿法等填充。这个填充要基于对数据的http://jsjfz.nut.edu.cn/index.php/cms/item-view-id-1331.shtml
18.Python数据挖掘算法入门与实践腾讯云开发者社区数据挖掘一般的流程如下: 首先,进行数据挖掘的第一步是数据选择。在明确了业务需求后,我们需要从各种来源中选择与需求相关的数据。这些数据可能来自业务原始数据、公开的数据集,或者通过爬虫从网站上抓取的结构化数据。选择合适的数据是进行数据挖掘的基础。 https://cloud.tencent.com/developer/article/2388786