数据挖掘流程详细解析袋鼠社区

数据挖掘是一门手艺。它涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门技术。但如同其他成熟的手艺一样,数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性。跨行业数据挖掘标准流程(CRISP-DM;Shearer,2000)对该流程进行了整理,如图1所示,以下为本人手工绘制:

上图明确了这个事实:循环迭代是数据挖掘流程的常态。通常,循环迭代一轮没能解决问题并不意味着失败。整个数据挖掘流程往往是探索数据的过程。在第一轮迭代之后,数据科学团队会对数据更加了解,在下次迭代时会更有方向性。下面详细讨论这些步骤。

一、业务理解环节

在初始环节,理解要解决的问题至关重要。虽然这似乎显而易见,但是实际上商业项目很少会像数据挖掘问题那样清晰明确。因此,在探寻结果的过程中,需要反复重塑问题和设计解决方案。如图1所示,该过程不是一个简单的线性过程,而是一个嵌套在循环中的循环。因为最初的构想可能是不完整的或不是最优的,所以若要得到满意的解决方案,就需要进行多次循环。在业务理解环节,分析师需要发挥创造力。正如接下来将会讲到的,数据科学固然重要,但成功的关键往往是商业分析师如何发挥创造力,将商业问题分解成一个或多个数据科学问题。充分掌握基础知识有助于分析师构思新颖的方案。

在解决特定的数据挖掘问题时,有多种工具可供使用。通常在前期我们会依据这些工具各自的优势来设计解决方案,也就是说,把问题分解为若干个分类任务、回归任务和概率估计任务的建模问题。

在第一个环节,方案设计团队需要仔细考虑需要解决的问题及其应用场景。这是数据科学最重要的基本原则之一,我们究竟想做什么?如何做?应用场景的哪些部分可能包含数据挖掘模型?根据期望值来构建商业问题,有助于把问题系统地分解为多个数据挖掘任务。

二、数据理解环节

如果目标是解决商业问题,那么构成解决方案的原材料就应该包含在数据里。因为几乎没有一份数据能完全符合问题的需求,所以我们需要了解数据的优势和局限性。收集历史数据的原始目的往往与当前面对的商业问题无关,有些历史数据甚至根本没有明确的收集目的。另外,用户数据、交易数据和市场回馈数据包含不同的信息,其涵盖的交叉人群和数据的可靠程度也可能不同。数据的成本不一也是常见现象。有的数据几乎可以免费获取,有的却需要费点力气才能获得。有的数据可以买到,有的数据却根本不存在,而采集它们甚至需要一个辅助项目。数据理解环节的关键是估计每个数据源的成本和收益,从而决定是否有必要进一步投资。即使所有数据集都收集齐全时,也需要额外花力气对其进行核对。比如,众所周知,用户记录和产品识别码多变且杂乱,清洗数据并匹配用户记录,以确保用户和记录一一对应,这本身就是一个复杂的分析问题(Hernández&Stolfo,1995;Elmagarmid,Ipeirotis&Verykios,2007)。

三、数据准备环节

虽然我们可以运用的分析技术十分强大,但是它们对所使用的数据有一些特定要求。通常,因为它们要求的数据格式与数据产生时的原始格式不同,所以需要对数据进行转化。因此,数据准备环节往往紧跟着数据理解环节,而在此环节中,数据被处理转化成特定格式,以获得更好的结果。典型的数据准备的例子有:把数据转化为表格格式、删除或推断出缺失值,以及转换数据类型。有的数据挖掘方法适用于符号数据和分类数据,有的则适用于数值型数据。此外,数值往往需要归一化或调整比例,以便于进行比较。上述几种转换都有相应的标准技术和经验法则。

四、建模环节

建模环节所输出的就是能反映数据中的规律的模型或模式。建模环节是将数据挖掘技术应用于数据的主要阶段。你需要理解数据挖掘的基本概念,包括现有技术和算法的种类,因为科学和技术正是在数据挖掘的这个环节发挥了最大的作用。

五、评估环节

评估环节的目的是严格评估数据挖掘结果,以确保它们有效且可靠,能够用于下一步。只要仔细地探查一个数据集,总能从中发现各种模式。但在严格的审查下,这些模式却可能根本站不住脚。我们希望能确保从数据中提取出的模型和模式能体现真正的规律,而不是特殊情况或样本异常。你可以在数据挖掘结束后直接应用其结果,但我们不建议你这么做。

首先,由于对部署环境的访问受到限制,所以“生产中”的综合评估就变得非常困难。其次,已部署系统通常包含许多“活动部分”,因而对每个单独环节进行评估也很困难。鉴于这种情况,拥有成熟数据科学团队的公司会明智地搭建尽可能反映真实生产数据的实验环境,以便在部署模型前得到最真实的评估。尽管如此,在某些情况下,我们也想通过构建能进行随机化试验的实时系统等方法,在开发环节进行评估。在用户流失示例中,如确定数据挖掘产出的某个模型能使用户流失情况好转,那么我们下一步可能会进行“活体”评估,即实时系统将模型随机应用于某些用户,而将其他用户作为对照组。

六、部署环节

在部署环节,数据挖掘结果乃至数据挖掘技术本身正(越来越多地)付诸实际使用,以获取投资回报。最简明的一类示例涉及在某些信息系统或业务流程中实现预测模型。在用户流失示例中,可以将预测流失概率的模型接入用户流失管理系统,这样,管理系统就可以向那些极有可能离开公司的用户发送特殊优惠。我们还可以将新型欺诈检测模型嵌入到劳动力管理信息系统中,以监视用户账户并“挑出”可疑交易交予欺诈分析师进行人工检验。

将模型部署于生产系统时,往往需要根据生产环境对模型进行重新编码。这通常是为了提高速度或提高该模型与现存系统的兼容性。但这可能会造成高额费用或投入。在许多情况下,数据科学团队不仅需要开发出一个可运行的原型,还需要对其进行评估,然后再将其转交给开发团队进行编码实现。

不管部署环节是否成功,整个流程往往都会再回到商业理解环节。数据挖掘流程能够暴露出商业问题和其解决方案的难点,而通过第二次迭代,就能改进解决方案。单是思考业务、数据和绩效目标的过程,往往就有助于想出提升业绩的新思路,有时甚至还能开辟新的业务线或创造新的投资机会。

值得注意的是,不一定非要等到部署环节失败才能重启数据挖掘的大循环。在评估环节就可能发现评估结果并未达到部署标准,而此时就需要调整问题定义或获取其他数据。这个过程即图1中由评估环节指向商业理解环节的“捷径”。在实际中,每个环节都应有回到其之前环节的“捷径”,这是因为数据挖掘流程的每个环节都有一定的探索性,而当有新发现需要纳入考量时,我们就需要有足够的灵活性来退回到之前的各环节。

转载自公众号xdmhjsdt,如若侵权请联系我们进行删除!

合作咨询market@dtstack.com

总部地址杭州市余杭区五常街道阿里巴巴数字生态创新园4号楼袋鼠云

THE END
1.数据挖掘概念(AnalysisServices尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。或者,您可以生成数个模型,但随后发现这些模型无法充分地回答定义的问题,因此必须重新定义问题。您可能https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和聚类分析四种,#数据挖掘分析方法指南数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提https://blog.51cto.com/u_16213297/12863680
3.数据挖掘算法实战:从传统统计到机器学习的商业智能分析完整技术栈通过数据挖掘算法,可以对用户的行为进行分析,包括用户偏好、购买行为、活跃度等,从而为企业的精准营销、产品推荐等提供支持。 风险管理 利用数据挖掘算法可以对风险进行识别和评估,包括信用风险、市场风险、操作风险等,帮助企业更好地进行风险管理和决策制定。 https://www.jianshu.com/p/e8efcaaf4349
4.数据挖掘过程:从目标到任务再到技术基于任务的数据挖掘技术文章浏览阅读8.4k次,点赞7次,收藏4次。数据挖掘过程制定数据挖掘问题:从目标到任务再到技术一般数据挖掘的良性循环描述为一个业务流程,其中把数据挖掘划分为4个阶段:(1) 识别问题(2) 将数据转换为信息(3) 采取行动(4) 度量结果 本文的重点转向把数据挖掘作为技术https://blog.csdn.net/qinghuawenkang/article/details/8858651
5.计算机应用技术论文范例[15篇]在信息化建设中,计算机应用技术主要包括数据挖掘技术和信息共享技术。其中,数据挖掘技术的实施包含信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘过程、模式评估以及知识表示8个步骤[2]。数据挖掘是一个反复循环的过程,若一个步骤没有达到目标,需要返回至前一个步骤,重新进行。同时,并非所有数据都要进行数https://www.yjbys.com/bylw/jisuanji/156222.html
6.大数据分析与处理超星尔雅学习通网课答案7、【多选题】数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及( )等方面。 A、挖掘频繁模式 B、分类和预测 C、聚类分析 D、偏差分析 8、【多选题】通过数据挖掘过程所推导出的关系和摘要经常被称为( ) A、模型 B、模式 C、模范 D、模具 http://xuzhou.ehqc.cn/html/15_86.html
7.计算机应用技术论文15篇实用在信息化建设中,计算机应用技术主要包括数据挖掘技术和信息共享技术。其中,数据挖掘技术的实施包含信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘过程、模式评估以及知识表示8个步骤[2]。数据挖掘是一个反复循环的过程,若一个步骤没有达到目标,需要返回至前一个步骤,重新进行。同时,并非所有数据都要进行数https://www.fwsir.com/ligong/html/ligong_20240608163733_3870275.html
8.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
9.电解铝生产范文12篇(全文)铝电解远程监控系统作为铝电解控制过程中的最基本数据源, 为各种管理软件、管理程序提供数据支持, 作为系统功能的扩展, 在设计时保留了与专家系统、系统分析与数据挖掘等模块的接口。 三、结论 铝电解监控系统作为铝电解生产过程中不可缺少的一部分, 它的设计直接关系到生产的好坏。该系统运行安全、稳定、可靠, 节约https://www.99xueshu.com/w/ikeypp2ao9c6.html
10.数据挖掘研究(精选十篇)数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程, 这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。 https://www.360wenmi.com/f/cnkey7ouwjk5.html
11.保姆式GEO数据挖掘演示写在前面 模拟1000行代码不如实操训练,重现文章中的数据才是学习GEO数据挖掘的最好途径,基于以上精神,我们就来重现一下高分文章的数据挖掘过程。 至于为什么选择这篇文章,是因为我还是个GEO数据挖掘的小白https://m.wang1314.com/doc/webapp/topic/20967139.html
12.基于梯度的重叠式层次社区检测5) 循环过程2)–4)直至收敛. 上述算法展示了如何基于自定义的距离计算方式, 自适应任意的重叠式层次结构, 进行节点嵌入表示学习和节点-社区隶属关系分配. 两个基于图数据的基础任务共享知识, 互相指引, 实现了端到端的联合优化模型, 两个任务的表现共同得到了提升. 值得注意的是, 我们将所有的距离计算融合为矩阵https://c-s-a.org.cn/html/2021/8/8016.htm
13.我国推进“无废城市”建设的进展问题及对策建议通过循环经济可有效减少原材料和产品在提取、制造、运输、分配和处置过程中的大量间接碳排放,具有提升资源利用效率、降低固废污染和碳减排的协同倍增效应。①将发展循环经济作为推进“无废城市”建设和实现“双碳”目标的重要手段,并纳入“无废城市”建设、碳达峰和碳中和及应对气候变化的相关方案、规划和行动计划中。②https://www.chinacace.org/news/fieldsview?id=13807
14.深圳市“无废城市”建设试点亮点模式(截至2020年12月31日)二是组织主要品牌快递企业签订《深圳市快递行业绿色联盟公约》,开展“六·五环境日”绿色快递宣传活动,引导快递企业与消费者循环化使用快递包装。 8.固体废物全过程智慧监管平台建设模式 依托粤港澳大湾区协同处置机制,深圳市创新使用物联感知、视频识别、GPS分析、数据挖掘、二维码联单等技术,建设固体废物全过程智慧监管https://www.mee.gov.cn/home/ztbd/2020/wfcsjssdgz/sdjz/ldms/202102/t20210208_820883.shtml
15.人动作过程采集系统如上所述,这一方法也可以包括将计算出的动作过程与之前确定并保存在存储器中的动作过程进行比较。20.评估动作过程包括通过至少一个完整的步态循环评估身体部位的动作,这样系统可获得动作过程的完整图像。21.另一个特征是,这一方法也包括通过比较助步器模型识别大量图像中的至少一个助步器。这一方法可以综合评估至少https://www.xjishu.com/zhuanli/55/202080013352.html
16.数据挖掘实质上是一个深层次的()过程,即从大量的数据中抽取出潜在数据挖掘实质上是一个深层次的()过程,即从大量的数据中抽取出潜在的、有价值的知识、模型或规则的过程。A、数据搜集B、B.数据转换C、数据集合D、数据分析正确答案:数据分析 点击查看答案进入小程序搜题你可能喜欢依据继续使用假设中的各种具体评估方法分别去评估某一具体资产,其结果可能是()。 点击查看答案进入小https://m.ppkao.com/wangke/daan/8109fe8deb1748c6bb0757f3f1961075
17.数据挖掘与数据建模的9大定律(深度长文收藏细读!)数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非理论,在其过程的理解上不太引人注意。20世纪90年代晚https://cloud.tencent.com/developer/article/1041773
18.科目简介本课程旨在介绍数据仓库和数据挖掘的基本原理和技术,内容包括数据仓库(Data Warehouse)和联机分析(OLAP)技术,数据预处理技术(数据的清理、集成、转换和归约),数据挖掘技术(分类、预测、关联和聚类),以及数据挖掘的应用和发展趋势。 MIME07 随机过程 (3 学分) https://www.must.edu.mo/cn/fi/programme/applied-math/course-description
19.数据挖掘过程中可能遇到的问题有哪些?数据挖掘过程中可能遇到的问题包括数据质量问题、特征选择问题、过拟合问题、模型选择问题、大数据处理问题等,解决这些问题的方法包括数据清洗和预处理、特征选择算法、交叉验证、模型选择、分布式计算等。https://www.mbalib.com/ask/question-df39a895afe6da9867c321c7fda416b2.html
20.国家自然基金委:近期5个项目申报通知及指南汇总(1) 为实现重大研究计划总体科学目标和多学科集成,获得资助的项目负责人应当承诺遵守相关数据和资料管理与共享的规定,项目执行过程中应关注与本重大研究计划其他项目之间的相互支撑关系。 (2) 为加强项目的学术交流,促进项目群的形成和多学科交叉与集成,本重大研究计划将每年举办1次资助项目的年度学术交流会,并将不定http://www.cepaedu.cn/news/zrsb/1658.html