数据挖掘建模:如何从数据中“淘金”?

本文笔者将对数据挖掘建模的一般过程进行解析,主要分为四部分:数据准备、模式发现、模型构建以及模型评价。

数据挖掘介绍

数据挖掘(DataMining,DM):就是从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。这些模型和关系可以被企业用来分析风险、进行预测。

数据挖掘的目的就是从数据中“淘金”,就是从数据中获取智能的过程,数据挖掘是提供了从数据到价值的解决方案。

数据+工具+方法+目标+行动=价值。

目前,数据挖掘已有一系列应用:

以上这些应用涉及的技术和工具各不相同,然而却可以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。

数据挖掘建模的一般过程

第一步,数据准备

数据选择主要考虑的包括:

1)数据探索:数据清洗和构造

前面所叙述的数据选择,多少是带着人们对如何达到数据挖掘目的的先验认识进行操作的。

对所抽取的样本数据进行探索、审核和必要的加工处理,是保证预测质量所必需的。可以说,预测的质量不会超过抽取样本的质量。

2)数据预处理:整合和格式化

当采样数据维度过大,如何进行降维处理?采样数据中的缺失值如何处理?这些都是数据预处理要解决的问题。

由于采样数据中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那么,如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果的目的呢?

数据预处理主要包括以下内容:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约。

第二步,模式发现

样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?

模型构建的前提是在样本数据集中发现模式,比如:关联规则、分类预测、聚类分析、时序模式等。

在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要。

第三步,模型构建

确定了本次建模所属的数据挖掘应用问题(分类、聚类、关联规则或者时序模式)后,还需考虑:具体应该采用什么算法,实施步骤是什么?

这一步是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。

预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。

第四步,模型评价

模型评价的目的是什么?如何评价模型的效果?通过什么评价指标来衡量?

模型效果评价通常分两步:

第一步是:直接使用原来建立模型的样本数据来进行检验。

假如这一步都通不过,那么所建立的决策支持信息价值就不太大了。一般来说,在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

第一步通过后,第二步是:另外找一批数据,已知这些数据是反映客观实际的、规律性的。

业务应用场景:网红销售额评估模型、客户ROI评估模型、网红品类推荐模型、网红报价建议模型、网红欺诈行为预警模型、网红流失预警模型等

结论

实践表明:由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样会进行复杂的思考,它只会按照人的指令工作。

但是,计算机拥有海量的数据存储能力和超强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务。

数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。

每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。

另外,近年来短视频,图片等多媒体数据库发展很快,面向多媒体数据库的挖掘技术今后将成为研究开发的热点。

本文由@无语凝咽原创发布于人人都是产品经理。未经许可,禁止转载

THE END
1.数据挖掘的步骤有哪些?步骤三:数据清洗 一旦数据收集完成,接下来的关键步骤是数据清洗。数据清洗包括去除重复项、处理缺失值、纠正错误等。只有在数据质量得到保障的情况下,才能确保后续分析的可靠性。 步骤四:数据探索 数据探索是数据挖掘过程中的一个重要环节,通过统计学和可视化手段对数据进行初步分析。这一步骤有助于发现数据之间的关系、https://www.smartbi.com.cn/wiki/6291
2.数据挖掘的六个步骤有哪些帆软数字化转型知识库数据挖掘的六个步骤有哪些 数据挖掘的六个步骤分别是:问题定义、数据收集与准备、数据清洗、数据转换与特征选择、模型建立与评估、结果解释与部署。其中问题定义是数据挖掘过程的首要步骤,直接影响整个项目的成功与否。问题定义涉及明确业务目标、研究目标和所需的数据类型。只有在问题定义清晰的情况下,后续的每一步骤才能https://www.fanruan.com/blog/article/594251/
3.数据挖掘的流程包含哪些步骤?数据挖掘的流程包含哪些步骤? 数据挖掘是从大量数据中挖掘出有用的信息和模式的过程。它涉及多个步骤,从数据收集到模型评估。以下是数据挖掘的常见流程步骤: 理解业务目标:在进行数据挖掘之前,需要明确业务目标和问题。确定要解决的问题以及所需的结果有助于指导整个流程。https://www.cda.cn/view/202981.html
4.数据挖掘研究(精选十篇)数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程, 这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据, 并从中发现隐藏的关系和模式, 进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。 https://www.360wenmi.com/f/cnkey7ouwjk5.html
5.数据挖掘论文范文8篇(全文)根据上面的研究, 我们证明了, 在数据挖掘的过程中, 应用机器学习算法具有举足轻重的作用。作为一门多领域互相交叉的知识学科, 它能够帮助我们提升定位的精准度以及定位速度, 可以被广泛的应用于各行各业。所以, 对于机器学习算法, 相关人员要加以重视, 不断的进行改良以及改善, 切实的发挥其有利的方面, 将其广泛https://www.99xueshu.com/w/filedo12vrm4.html
6.数据分析的过程主要包含这7个方面数据分析的过程是循序渐进的过程,主要包括如下7个方面。 一个完整的数据分析的过程,应该包括数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现、数据应用七个方面。今天我们就来从这几个角度着手,简要介绍一下数据分析的过程。 1. 数据采集 数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条https://www.jiushuyun.com/hywz/2061.html
7.什么是数据挖掘?——数据挖掘的过程,方法和实例数据挖掘是指从大量的数据中发现有价值的模式、规律和知识,以支持决策和预测分析的过程。通过数据挖掘,我们可以从海量数据中发现隐藏的关联性和趋势,为企业和组织提供宝贵的商业洞察力。下面将介绍数据挖掘的过程、方法和实例。 1. 数据挖掘的过程 数据挖掘的过程通常包括以下步骤:问题定义、数据采集、数据处理与清洗、https://www.jiandaoyun.com/fe/sjwjsjwjdg/
8.数据挖掘的过程包括:()。数据挖掘的过程包括:()。 A.问题定义 B.数据准备和预处理 C.数据挖掘 D.结果解释和评估 E.以上全部 点击查看答案进入题库练习 查答案就用赞题库小程序 还有拍照搜题 语音搜题 快来试试吧 无需下载 立即使用 你可能喜欢 多项选择题 服务价值包括()。 A.产品介绍 B.送货 C.维修 D.调试 E.技术 点击https://m.ppkao.com/mip/tiku/shiti/9021272.html
9.一文搞懂!商业数据分析全流程为了使数据挖掘过程更加规范化、系统化,出现了一些数据挖掘流程模型,CRISP-DM即是其中的一种优秀代表。CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部https://www.niaogebiji.com/article-606353-1.html
10.数据挖掘架构层次数据挖掘六个阶段注意:挖掘过程可能有大量重复的步骤 工具和技术的初步评估 给出工具和技术选择标准的列表 选择可能的工具和技术 评估技术的适合层度 根据可选方案的评估,审查和筛选合适技术 数据理解阶段 收集数据: 列出获得的数据集(或多个数据集),包括数据在项目位置,以及获取方法和面临的问题 https://blog.51cto.com/u_16099184/6736582
11.数据挖掘五步法所谓数据挖掘就是从海量的数据中,找到隐藏在数据里有价值的信息。因为这个数据是隐式的,因此想要挖掘出来并不简单。那么,如何进行数据挖掘呢?数据挖掘的步骤有哪些呢?一般来讲,数据挖掘需要经历数据收集、数据可视化、数据预处理、准备模型输入以及训练模型五大步骤,下面让我们来详细分析一下吧! https://blog.csdn.net/weixin_51689029/article/details/128333250
12.数据挖掘的步骤包括什么在数据预处理后,可以通过可视化、统计等方法对数据进行探索性分析,以初步了解数据的分布和特征。这有助于确定后续分析的方向和重点。 4、特征工程 根据数据探索的结果,选择与待挖掘主题密切相关的特征,并构造新的特征以更有效地表示数据。特征工程是数据挖掘过程中非常关键的一步,直接影响模型的性能和效果。 https://www.pxwy.cn/news-id-81213.html
13.python数据挖掘算法的过程详解python这篇文章主要介绍了python 数据挖掘算法,首先给大家介绍了数据挖掘的过程,基于sklearn主要的算法模型讲解,给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下+ 目录 1、首先简述数据挖掘的过程 第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二https://www.jb51.net/article/238548.htm
14.数据挖掘的过程张杰整理数据挖掘过程中各步骤的大体内容如下: 第一步:确定挖掘目的。认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。不能盲目的为了数据挖掘而数据挖掘。 第二步:数据准备。数据准备分为三个阶段。①数据的选择:搜索所有与目标对象有关的内部和外部数据信息,并从中选https://maimai.cn/article/detail?fid=1405334297&efid=7lwV824VMzvaUfEhWMvd3A