数据挖掘流程详细解析袋鼠社区

数据挖掘是一门手艺。它涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门技术。但如同其他成熟的手艺一样,数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性。跨行业数据挖掘标准流程(CRISP-DM;Shearer,2000)对该流程进行了整理,如图1所示,以下为本人手工绘制:

上图明确了这个事实:循环迭代是数据挖掘流程的常态。通常,循环迭代一轮没能解决问题并不意味着失败。整个数据挖掘流程往往是探索数据的过程。在第一轮迭代之后,数据科学团队会对数据更加了解,在下次迭代时会更有方向性。下面详细讨论这些步骤。

一、业务理解环节

在初始环节,理解要解决的问题至关重要。虽然这似乎显而易见,但是实际上商业项目很少会像数据挖掘问题那样清晰明确。因此,在探寻结果的过程中,需要反复重塑问题和设计解决方案。如图1所示,该过程不是一个简单的线性过程,而是一个嵌套在循环中的循环。因为最初的构想可能是不完整的或不是最优的,所以若要得到满意的解决方案,就需要进行多次循环。在业务理解环节,分析师需要发挥创造力。正如接下来将会讲到的,数据科学固然重要,但成功的关键往往是商业分析师如何发挥创造力,将商业问题分解成一个或多个数据科学问题。充分掌握基础知识有助于分析师构思新颖的方案。

在解决特定的数据挖掘问题时,有多种工具可供使用。通常在前期我们会依据这些工具各自的优势来设计解决方案,也就是说,把问题分解为若干个分类任务、回归任务和概率估计任务的建模问题。

在第一个环节,方案设计团队需要仔细考虑需要解决的问题及其应用场景。这是数据科学最重要的基本原则之一,我们究竟想做什么?如何做?应用场景的哪些部分可能包含数据挖掘模型?根据期望值来构建商业问题,有助于把问题系统地分解为多个数据挖掘任务。

二、数据理解环节

如果目标是解决商业问题,那么构成解决方案的原材料就应该包含在数据里。因为几乎没有一份数据能完全符合问题的需求,所以我们需要了解数据的优势和局限性。收集历史数据的原始目的往往与当前面对的商业问题无关,有些历史数据甚至根本没有明确的收集目的。另外,用户数据、交易数据和市场回馈数据包含不同的信息,其涵盖的交叉人群和数据的可靠程度也可能不同。数据的成本不一也是常见现象。有的数据几乎可以免费获取,有的却需要费点力气才能获得。有的数据可以买到,有的数据却根本不存在,而采集它们甚至需要一个辅助项目。数据理解环节的关键是估计每个数据源的成本和收益,从而决定是否有必要进一步投资。即使所有数据集都收集齐全时,也需要额外花力气对其进行核对。比如,众所周知,用户记录和产品识别码多变且杂乱,清洗数据并匹配用户记录,以确保用户和记录一一对应,这本身就是一个复杂的分析问题(Hernández&Stolfo,1995;Elmagarmid,Ipeirotis&Verykios,2007)。

三、数据准备环节

虽然我们可以运用的分析技术十分强大,但是它们对所使用的数据有一些特定要求。通常,因为它们要求的数据格式与数据产生时的原始格式不同,所以需要对数据进行转化。因此,数据准备环节往往紧跟着数据理解环节,而在此环节中,数据被处理转化成特定格式,以获得更好的结果。典型的数据准备的例子有:把数据转化为表格格式、删除或推断出缺失值,以及转换数据类型。有的数据挖掘方法适用于符号数据和分类数据,有的则适用于数值型数据。此外,数值往往需要归一化或调整比例,以便于进行比较。上述几种转换都有相应的标准技术和经验法则。

四、建模环节

建模环节所输出的就是能反映数据中的规律的模型或模式。建模环节是将数据挖掘技术应用于数据的主要阶段。你需要理解数据挖掘的基本概念,包括现有技术和算法的种类,因为科学和技术正是在数据挖掘的这个环节发挥了最大的作用。

五、评估环节

评估环节的目的是严格评估数据挖掘结果,以确保它们有效且可靠,能够用于下一步。只要仔细地探查一个数据集,总能从中发现各种模式。但在严格的审查下,这些模式却可能根本站不住脚。我们希望能确保从数据中提取出的模型和模式能体现真正的规律,而不是特殊情况或样本异常。你可以在数据挖掘结束后直接应用其结果,但我们不建议你这么做。

首先,由于对部署环境的访问受到限制,所以“生产中”的综合评估就变得非常困难。其次,已部署系统通常包含许多“活动部分”,因而对每个单独环节进行评估也很困难。鉴于这种情况,拥有成熟数据科学团队的公司会明智地搭建尽可能反映真实生产数据的实验环境,以便在部署模型前得到最真实的评估。尽管如此,在某些情况下,我们也想通过构建能进行随机化试验的实时系统等方法,在开发环节进行评估。在用户流失示例中,如确定数据挖掘产出的某个模型能使用户流失情况好转,那么我们下一步可能会进行“活体”评估,即实时系统将模型随机应用于某些用户,而将其他用户作为对照组。

六、部署环节

在部署环节,数据挖掘结果乃至数据挖掘技术本身正(越来越多地)付诸实际使用,以获取投资回报。最简明的一类示例涉及在某些信息系统或业务流程中实现预测模型。在用户流失示例中,可以将预测流失概率的模型接入用户流失管理系统,这样,管理系统就可以向那些极有可能离开公司的用户发送特殊优惠。我们还可以将新型欺诈检测模型嵌入到劳动力管理信息系统中,以监视用户账户并“挑出”可疑交易交予欺诈分析师进行人工检验。

将模型部署于生产系统时,往往需要根据生产环境对模型进行重新编码。这通常是为了提高速度或提高该模型与现存系统的兼容性。但这可能会造成高额费用或投入。在许多情况下,数据科学团队不仅需要开发出一个可运行的原型,还需要对其进行评估,然后再将其转交给开发团队进行编码实现。

不管部署环节是否成功,整个流程往往都会再回到商业理解环节。数据挖掘流程能够暴露出商业问题和其解决方案的难点,而通过第二次迭代,就能改进解决方案。单是思考业务、数据和绩效目标的过程,往往就有助于想出提升业绩的新思路,有时甚至还能开辟新的业务线或创造新的投资机会。

值得注意的是,不一定非要等到部署环节失败才能重启数据挖掘的大循环。在评估环节就可能发现评估结果并未达到部署标准,而此时就需要调整问题定义或获取其他数据。这个过程即图1中由评估环节指向商业理解环节的“捷径”。在实际中,每个环节都应有回到其之前环节的“捷径”,这是因为数据挖掘流程的每个环节都有一定的探索性,而当有新发现需要纳入考量时,我们就需要有足够的灵活性来退回到之前的各环节。

转载自公众号xdmhjsdt,如若侵权请联系我们进行删除!

合作咨询market@dtstack.com

总部地址杭州市余杭区五常街道阿里巴巴数字生态创新园4号楼袋鼠云

THE END
1.数据挖掘五步法所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧! https://blog.csdn.net/weixin_51689029/article/details/128333250
2.数据挖掘的六大过程数据挖掘的六大过程通常包括:数据清洗、数据集成、数据选择、数据变换、数据挖掘、模式评估。 这六个过程构成了一个系统而复杂的工作流程,旨在从大量数据中提取有用的模式和知识,支持决策和预测。 以下是每个过程的详细解释: 一、数据清洗 定义:数据清洗是对原始数据进行预处理的过程,旨在解决数据缺失、不一致、噪声等https://www.ai-indeed.com/encyclopedia/10656.html
3.什么是数据挖掘的流程?一步步带你掌握数据挖掘的完整过程数据挖掘已经成为现代商业和科技领域中不可或缺的一部分。它不仅帮助企业从海量数据中提取有价值的信息,还为决策提供了有力的支持。本文将带你详细了解数据挖掘的完整流程,从商业理解到模型部署,帮助你逐步掌握这一复杂而有趣的过程。 1. 商业理解 数据挖掘的第一步是商业理解,即明确业务目标和问题,理解项目需求。https://www.cda.cn/view/204893.html
4.数据挖掘的挖掘流程是什么帆软数字化转型知识库数据挖掘的挖掘流程包括:数据准备、数据清洗、数据集成、数据变换、数据挖掘、模式评估、知识表示。其中,数据准备是整个流程的基础,它包括数据收集和初步数据探索。数据收集是指从各种数据源获取所需数据,这些数据源可以是数据库、数据仓库、文件系统以及实时数据流。初步数据探索则是对收集到的数据进行基本的统计分析和可https://www.fanruan.com/blog/article/593346/
5.数据挖掘流程数据挖掘流程 (一)数据读取 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成的任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论 (三)数据清洗与预处理 对缺失值进行填充 https://www.jianshu.com/p/4934224be8fa
6.数据挖掘实施流程数据挖掘实施流程 数据挖掘过程是根据数据特征建立模型,然后通过科学检验,发现模型和数据之间规模的一系列活动,具体来说就是确定分析对象,对数据进行预处理,选择合适的数据分析方法进行数据处理,将分析结果进行可视化展现等,以下将对各个环节进行详细分析。 1 数据准备 https://cda.pinggu.org/view/20055.html
7.数据挖掘流程范文12篇(全文)数据挖掘流程 第1篇 1 数据挖掘的原理 数据挖掘是通过分析每个数据, 从大量数据中寻找其规律的技术, 其特点如图1。数据库是资源信息的存储地, 充分利用数据库资源对办公自动化系统有着重要的作用。由于计算机应用技术条件有限, 企业在数据挖掘地方面的操作存在不足, 导致数据资源浪费而影响了使用效率。数据挖掘技术本https://www.99xueshu.com/w/ikeyo1a9ca2z.html
8.数据挖掘全流程数据挖掘全流程下载源文件 立即使用 导图社区 数据挖掘全流程53 1 举报 发布时间:2022-10-17 这是一个关于数据挖掘全流程的思维导图,讲述了数据挖掘全流程的相关故事,如果你对数据挖掘全流程的故事感兴趣,欢迎对该思维导图收藏和点赞~数据挖掘全流程https://mm.edrawsoft.cn/template/967026
9.数据挖掘的基本流程在数据挖掘中,特征选择是从大量的特征中选择出最具有预测能力的特征。通过特征选择,可以减少模型的复杂性、提高模型的准确性和可解释性。常用的特征选择方法包括过滤法、包装法和嵌入法等。 6.模型建立 在数据挖掘的流程中,模型建立是一个核心步骤。在这一步骤中,根据问题的定义和数据的特征,选择合适的建模算法,并https://wenku.baidu.com/view/1b78ce1bdeccda38376baf1ffc4ffe473368fd86.html
10.数据挖掘架构层次数据挖掘六个阶段CRISP-DM--数据挖掘标准流程 在1996年的时候,SPSS,戴姆勒-克莱斯勒和NCR公司发起共同成立了一个兴趣小组,目的是为了建立数据挖掘方法和过程的标准。并在1999年正式提炼出了CRISP-DM流程。这个流程确定了一个数据挖掘项目的生命周期包括以下六个阶段: 业务/研究理解阶段 https://blog.51cto.com/u_16099184/6736582
11.一文搞懂!商业数据分析全流程CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部署。 CRISP-DM强调,数据挖掘是一个迭代和探索的过程,六个步骤并不是线性的,而是根据实际情况灵活进行https://www.niaogebiji.com/article-606353-1.html
12.数据挖掘技术方法(精选十篇)微博诞生也不过数年光景,就以之为例。微博是大家熟知的社交网站,通过社交网站的数据挖掘的管理流程,就可窥一斑而见全豹,对整个网络数据挖掘的方法与技术就都可以融会贯通了。我们可以举个例子,譬如应用面向对象的系统分析方法与设计等等。 2 网络数据挖掘方法https://www.360wenmi.com/f/cnkeyg31vygx.html
13.电子商务应用论文(15篇)2Web数据挖掘的流程 Web数据挖掘是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取商业决策的关键性数据,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。在电子商务环境下,Web数据挖掘主要分为以下几步:(1)数据收集。首先数据收集主要针对web数据中的服务器数据https://www.yjbys.com/biyelunwen/fanwen/dianzixinxigongcheng/733161.html
14.直播回顾单细胞测序:从样本制备到数据挖掘的全流程探讨2023年6月7-8日,瑞沃德特邀达普生物产品经理潘鑫和达普生物、高级科学家肖之夏做客直播间,以“单细胞测序:从样本制备到数据挖掘的全流程探讨”为主题进行精彩分享,在线与大家一起探讨单细胞测序的奥秘! 没有赶上看直播 或想再回顾精彩内容的小伙伴 扫码即可查看直播回放 https://www.yiqi.com/news/detail_23958.html
15.12GEO数据挖掘之转录组测序数据流程以GSE150392为例1. 数据下载 proj = "GSE150392" #可以套用在其他代码里面了 1. 生存信息与临床信息 这里仅仅是查看一下生存信息等样品临床表型信息,到生存信息部分再整理。 library(GEOquery) eSet = getGEO("GSE150392",destdir = ".",getGPL = F) eSet = eSet[[1]] http://www.sxmu.edu.cn/bdcd/info/1109/1264.htm