数据挖掘流程详细解析袋鼠社区

数据挖掘是一门手艺。它涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门技术。但如同其他成熟的手艺一样,数据挖掘也有一套易于理解的流程,可以将问题解构,并保证合理的一致性、可重复性和客观性。跨行业数据挖掘标准流程(CRISP-DM;Shearer,2000)对该流程进行了整理,如图1所示,以下为本人手工绘制:

上图明确了这个事实:循环迭代是数据挖掘流程的常态。通常,循环迭代一轮没能解决问题并不意味着失败。整个数据挖掘流程往往是探索数据的过程。在第一轮迭代之后,数据科学团队会对数据更加了解,在下次迭代时会更有方向性。下面详细讨论这些步骤。

一、业务理解环节

在初始环节,理解要解决的问题至关重要。虽然这似乎显而易见,但是实际上商业项目很少会像数据挖掘问题那样清晰明确。因此,在探寻结果的过程中,需要反复重塑问题和设计解决方案。如图1所示,该过程不是一个简单的线性过程,而是一个嵌套在循环中的循环。因为最初的构想可能是不完整的或不是最优的,所以若要得到满意的解决方案,就需要进行多次循环。在业务理解环节,分析师需要发挥创造力。正如接下来将会讲到的,数据科学固然重要,但成功的关键往往是商业分析师如何发挥创造力,将商业问题分解成一个或多个数据科学问题。充分掌握基础知识有助于分析师构思新颖的方案。

在解决特定的数据挖掘问题时,有多种工具可供使用。通常在前期我们会依据这些工具各自的优势来设计解决方案,也就是说,把问题分解为若干个分类任务、回归任务和概率估计任务的建模问题。

在第一个环节,方案设计团队需要仔细考虑需要解决的问题及其应用场景。这是数据科学最重要的基本原则之一,我们究竟想做什么?如何做?应用场景的哪些部分可能包含数据挖掘模型?根据期望值来构建商业问题,有助于把问题系统地分解为多个数据挖掘任务。

二、数据理解环节

如果目标是解决商业问题,那么构成解决方案的原材料就应该包含在数据里。因为几乎没有一份数据能完全符合问题的需求,所以我们需要了解数据的优势和局限性。收集历史数据的原始目的往往与当前面对的商业问题无关,有些历史数据甚至根本没有明确的收集目的。另外,用户数据、交易数据和市场回馈数据包含不同的信息,其涵盖的交叉人群和数据的可靠程度也可能不同。数据的成本不一也是常见现象。有的数据几乎可以免费获取,有的却需要费点力气才能获得。有的数据可以买到,有的数据却根本不存在,而采集它们甚至需要一个辅助项目。数据理解环节的关键是估计每个数据源的成本和收益,从而决定是否有必要进一步投资。即使所有数据集都收集齐全时,也需要额外花力气对其进行核对。比如,众所周知,用户记录和产品识别码多变且杂乱,清洗数据并匹配用户记录,以确保用户和记录一一对应,这本身就是一个复杂的分析问题(Hernández&Stolfo,1995;Elmagarmid,Ipeirotis&Verykios,2007)。

三、数据准备环节

虽然我们可以运用的分析技术十分强大,但是它们对所使用的数据有一些特定要求。通常,因为它们要求的数据格式与数据产生时的原始格式不同,所以需要对数据进行转化。因此,数据准备环节往往紧跟着数据理解环节,而在此环节中,数据被处理转化成特定格式,以获得更好的结果。典型的数据准备的例子有:把数据转化为表格格式、删除或推断出缺失值,以及转换数据类型。有的数据挖掘方法适用于符号数据和分类数据,有的则适用于数值型数据。此外,数值往往需要归一化或调整比例,以便于进行比较。上述几种转换都有相应的标准技术和经验法则。

四、建模环节

建模环节所输出的就是能反映数据中的规律的模型或模式。建模环节是将数据挖掘技术应用于数据的主要阶段。你需要理解数据挖掘的基本概念,包括现有技术和算法的种类,因为科学和技术正是在数据挖掘的这个环节发挥了最大的作用。

五、评估环节

评估环节的目的是严格评估数据挖掘结果,以确保它们有效且可靠,能够用于下一步。只要仔细地探查一个数据集,总能从中发现各种模式。但在严格的审查下,这些模式却可能根本站不住脚。我们希望能确保从数据中提取出的模型和模式能体现真正的规律,而不是特殊情况或样本异常。你可以在数据挖掘结束后直接应用其结果,但我们不建议你这么做。

首先,由于对部署环境的访问受到限制,所以“生产中”的综合评估就变得非常困难。其次,已部署系统通常包含许多“活动部分”,因而对每个单独环节进行评估也很困难。鉴于这种情况,拥有成熟数据科学团队的公司会明智地搭建尽可能反映真实生产数据的实验环境,以便在部署模型前得到最真实的评估。尽管如此,在某些情况下,我们也想通过构建能进行随机化试验的实时系统等方法,在开发环节进行评估。在用户流失示例中,如确定数据挖掘产出的某个模型能使用户流失情况好转,那么我们下一步可能会进行“活体”评估,即实时系统将模型随机应用于某些用户,而将其他用户作为对照组。

六、部署环节

在部署环节,数据挖掘结果乃至数据挖掘技术本身正(越来越多地)付诸实际使用,以获取投资回报。最简明的一类示例涉及在某些信息系统或业务流程中实现预测模型。在用户流失示例中,可以将预测流失概率的模型接入用户流失管理系统,这样,管理系统就可以向那些极有可能离开公司的用户发送特殊优惠。我们还可以将新型欺诈检测模型嵌入到劳动力管理信息系统中,以监视用户账户并“挑出”可疑交易交予欺诈分析师进行人工检验。

将模型部署于生产系统时,往往需要根据生产环境对模型进行重新编码。这通常是为了提高速度或提高该模型与现存系统的兼容性。但这可能会造成高额费用或投入。在许多情况下,数据科学团队不仅需要开发出一个可运行的原型,还需要对其进行评估,然后再将其转交给开发团队进行编码实现。

不管部署环节是否成功,整个流程往往都会再回到商业理解环节。数据挖掘流程能够暴露出商业问题和其解决方案的难点,而通过第二次迭代,就能改进解决方案。单是思考业务、数据和绩效目标的过程,往往就有助于想出提升业绩的新思路,有时甚至还能开辟新的业务线或创造新的投资机会。

值得注意的是,不一定非要等到部署环节失败才能重启数据挖掘的大循环。在评估环节就可能发现评估结果并未达到部署标准,而此时就需要调整问题定义或获取其他数据。这个过程即图1中由评估环节指向商业理解环节的“捷径”。在实际中,每个环节都应有回到其之前环节的“捷径”,这是因为数据挖掘流程的每个环节都有一定的探索性,而当有新发现需要纳入考量时,我们就需要有足够的灵活性来退回到之前的各环节。

转载自公众号xdmhjsdt,如若侵权请联系我们进行删除!

合作咨询market@dtstack.com

总部地址杭州市余杭区五常街道阿里巴巴数字生态创新园4号楼袋鼠云

THE END
1.数据挖掘的基本步骤和流程解析:深入洞察与策略实施业务理解是数据挖掘的起点,它确保了数据挖掘项目的方向与业务目标一致。 确定数据挖掘目标:例如,一家电商公司可能想要通过分析客户购买行为来提高交叉销售 率。这里的挖掘目标就是识别潜在的购买组合。 深入业务流程:通过工作坊、访谈和问卷调查等方式,与业务人员合作,识别影响销售的关 https://blog.csdn.net/m0_67484548/article/details/142664830
2.数据挖掘的六大过程数据挖掘的六大过程通常包括:数据清洗、数据集成、数据选择、数据变换、数据挖掘、模式评估。 这六个过程构成了一个系统而复杂的工作流程,旨在从大量数据中提取有用的模式和知识,支持决策和预测。 以下是每个过程的详细解释: 一、数据清洗 定义:数据清洗是对原始数据进行预处理的过程,旨在解决数据缺失、不一致、噪声等https://www.ai-indeed.com/encyclopedia/10656.html
3.什么是数据挖掘的流程?一步步带你掌握数据挖掘的完整过程数据挖掘已经成为现代商业和科技领域中不可或缺的一部分。它不仅帮助企业从海量数据中提取有价值的信息,还为决策提供了有力的支持。本文将带你详细了解数据挖掘的完整流程,从商业理解到模型部署,帮助你逐步掌握这一复杂而有趣的过程。 1. 商业理解 数据挖掘的第一步是商业理解,即明确业务目标和问题,理解项目需求。https://www.cda.cn/view/204893.html
4.数据挖掘流程范文12篇(全文)数据挖掘流程 第1篇 1 数据挖掘的原理 数据挖掘是通过分析每个数据, 从大量数据中寻找其规律的技术, 其特点如图1。数据库是资源信息的存储地, 充分利用数据库资源对办公自动化系统有着重要的作用。由于计算机应用技术条件有限, 企业在数据挖掘地方面的操作存在不足, 导致数据资源浪费而影响了使用效率。数据挖掘技术本https://www.99xueshu.com/w/ikeyo1a9ca2z.html
5.数据挖掘技术方法(精选十篇)1.2 传统数据挖掘 一般的数据挖掘过程就是提取数据信息的过程,其过程大多如下图所示(图1): 1.3 网络数据挖掘 网络数据挖掘是个新生事物,笼统地讲析太过抽象,所以我们就以社交网站为例来探析下网络数据挖掘。微博诞生也不过数年光景,就以之为例。微博是大家熟知的社交网站,通过社交网站的数据挖掘的管理流程,就可窥https://www.360wenmi.com/f/cnkeyg31vygx.html
6.阿里云机器学习平台PAI介绍学习笔记2.内置阿里、蚂蚁多年沉淀的分布式算法,将成熟的算法封装起来,支持百亿级数据量训练,处理能力是比较强的。 3.WEB 界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程 他的平台架构最底层是基础设施,上面是开放框架,第三层是模型与算法,最上层是业务应用层,不管应用哪一层,以及自己开发模型或者是直接使用他的模型都https://developer.aliyun.com/article/1086353
7.电子商务应用论文(15篇)2Web数据挖掘的流程 Web数据挖掘是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取商业决策的关键性数据,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。在电子商务环境下,Web数据挖掘主要分为以下几步:(1)数据收集。首先数据收集主要针对web数据中的服务器数据https://www.yjbys.com/biyelunwen/fanwen/dianzixinxigongcheng/733161.html
8.数据挖掘实施流程数据挖掘实施流程 数据挖掘过程是根据数据特征建立模型,然后通过科学检验,发现模型和数据之间规模的一系列活动,具体来说就是确定分析对象,对数据进行预处理,选择合适的数据分析方法进行数据处理,将分析结果进行可视化展现等,以下将对各个环节进行详细分析。 1 数据准备 https://cda.pinggu.org/view/20055.html
9.数据挖掘全流程数据挖掘全流程下载源文件 立即使用 导图社区 数据挖掘全流程53 1 举报 发布时间:2022-10-17 这是一个关于数据挖掘全流程的思维导图,讲述了数据挖掘全流程的相关故事,如果你对数据挖掘全流程的故事感兴趣,欢迎对该思维导图收藏和点赞~数据挖掘全流程https://mm.edrawsoft.cn/template/967026
10.数据挖掘流程示例泰坦尼克号Kaggle上面有一个经典的入门题目,泰坦尼克号乘客的生存预测。此文针对这个题目,演示数据挖掘的一些基本方法。 题目描述 灾难发生的时候,由于救生艇有限,所以2224位乘客中只有722位获救。虽然有运气成分,但是某些群体的人获救的概率更大,比如女士,小孩等。题目要求研究哪类人群更容易获救,并且对乘客是否获救做出预测。 https://www.jianshu.com/p/235343c6bb46
11.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
12.一文搞懂!商业数据分析全流程CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部署。 CRISP-DM强调,数据挖掘是一个迭代和探索的过程,六个步骤并不是线性的,而是根据实际情况灵活进行https://www.niaogebiji.com/article-606353-1.html
13.数据挖掘架构层次数据挖掘六个阶段CRISP-DM--数据挖掘标准流程 在1996年的时候,SPSS,戴姆勒-克莱斯勒和NCR公司发起共同成立了一个兴趣小组,目的是为了建立数据挖掘方法和过程的标准。并在1999年正式提炼出了CRISP-DM流程。这个流程确定了一个数据挖掘项目的生命周期包括以下六个阶段: 业务/研究理解阶段 https://blog.51cto.com/u_16099184/6736582
14.12GEO数据挖掘之转录组测序数据流程以GSE150392为例1. 数据下载 proj = "GSE150392" #可以套用在其他代码里面了 1. 生存信息与临床信息 这里仅仅是查看一下生存信息等样品临床表型信息,到生存信息部分再整理。 library(GEOquery) eSet = getGEO("GSE150392",destdir = ".",getGPL = F) eSet = eSet[[1]] http://www.sxmu.edu.cn/bdcd/info/1109/1264.htm
15.大数据审计工作模式探索研究审计知识大数据时代,利用信息化技术手段能将大量杂而乱的审计数据进行多维分析和数据挖掘,转换成可靠的、深层次的信息。故审计机关必须适应大数据审计需要,构建国家审计数据系统和数字化审计平台,积极运用大数据技术,提高运用信息化技术查核问题、评价判断、宏观分析的能力,扩大审计监督的广度和深度。 https://sjj.panjin.gov.cn/2020_11/17_00/content-279844.html
16.过程挖掘:数据科学实战MOOC中国数据科学是一个属于未来的学科,不能以智慧的方式使用(大)数据的组织将无法生存。数据科学家仅仅专注于数据存储和数据分析是不够的,还要将数据与过程分析联系起来。过程挖掘在传统的基于模型的过程分析(如模拟和其他业务流程管理技术)和以数据为中心的分析技术(如机器学习和数据挖掘)之间搭建了一座重要桥梁。过程挖掘寻求https://www.mooc.cn/course/1271.html
17.StableDiffusion的完整指南:核心基础知识制作AI数字人视频和本地部署SD模型文生图流程 1)自动编码器(VAE) 在图像生成任务中,VAE的编码器可以将输入图片转换为低维的特征表示,作为后续模型的输入。这些低维特征保留原图像的主要语义信息。而VAE的解码器则可以将编码器输出的低维特征再次恢复为完整的图像。解码器实现了从压缩特征到图像空间的映射。不同的VAE结构设计,会使其在图像中https://www.elecfans.com/d/2238250.html
18.数据挖掘的挖掘流程是什么帆软数字化转型知识库数据挖掘的挖掘流程包括:数据准备、数据清洗、数据集成、数据变换、数据挖掘、模式评估、知识表示。其中,数据准备是整个流程的基础,它包括数据收集和初步数据探索。数据收集是指从各种数据源获取所需数据,这些数据源可以是数据库、数据仓库、文件系统以及实时数据流。初步数据探索则是对收集到的数据进行基本的统计分析和可https://www.fanruan.com/blog/article/593346/