大数据挖掘技术之DM经典模型(上)

下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。

相似度模型有原型和一个相似度函数构成。新数据通过计算其相似度函数,就可以计算出相似度得分。

1.1、相似度距离

通过出版社的读者比一般大众要富有,而且接受教育的程度要高为例。通常前者要比后者在富有程度、教育程度的比例大三倍。这样我们就可以给读者一个讯息——“工资很高,并且受过良好的教育”。

如果要把对读者的描述表示成一个可以识别该杂志潜在的读者的模型,就需要对理想的读者做出精确的定义,并以此来量化潜在读者与理想读者之间的相似程度。

相似度和距离是同一概念的两种不同描述方式,但是它们度量的方向不同。使用距离作为度量指标时,如果两个事物彼此非常靠近,那么两者就很相似。所以当两者距离很小时,相似度就会很高。

例如:出版社的理想读者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潜在客户与理想客户之间的相似度是多少呢?另外它们与受教育12年,并且年收入为150000美元的潜在客户又有多少相似呢?这时候,我们要选择一个度量的标准,欧式距离。当我们计算一潜在客户与理想客户(x=16,y=100000)之间的距离时,就会发现收入在计算中占了主导地位,因为它的取值比教育年限大的多得多。这就引入另一个问题:度量尺度。解决方法:将两值分别减去相应的平均值然后除以相应的标准差。这样就把两者转化成分数,然后用分数代替原来的值来计算欧式距离。

欧式距离仅计算距离方法之一。这里才采用欧式距离只是为了将原型目标的一种统计描述与某种距离函数结合起来,搭建一种相似度模型。有了潜在用户与理想客户之间的距离,就可以对潜在客户排序,或者将距离作为另一种计算的输入,得到预期收入或相应概率。

1.2、构建相似度模型的步骤

构建相似度模型,首先是要对原型进行描述,或得到一个用于与其他对象进行比较的理想对象。这些描述必须表示为度量,对于那些与理想值较近或较远的对象,这些变量的取值要明显不同。

首先,要解决三个问题

(1)“差”记录与“好”记录有什么区别?

(2)理想的“好”记录看起来是什么样子的?

(3)如何度量与理想对象之间的距离?

2.1、选择维度

对维度数的主要限制是单元格中训练记录的数量。在维度数与每个维度上分到的训练样本数之间有一个权衡。使用较少的维度,可以在每一个维度上进行更加精细的划分。在实际处理过程中,可能会出现该单元格中什么都没有,有的时候这种情况是确实存在的。这种异常情况,表中应该包含具有默认得分的单元格,这样就可为那些与任意主键不匹配的记录分配得分。典型的默认异常单元格得分,就是平均值。

2.2、维度的划分

2.3、从训练数据到得分

2.4、通过删除维度处理稀疏和缺失数据

有些单元格没有分配到足够多的数据,这会导致目标估计值的置信度较低。对于这类单元格该怎么办?一、减少每个维度上的划分数量。二、减少定义稀疏单元格的维度数。

例如:构建某购物网站物品清单价格的竞争力模型。基于清单熟悉感,点击吸引力的分析考虑四个维度:

产品

地域

供应商类型

星期几

对于一些比较受欢迎的产品,使用这四个维度是有道理的。而对于不受欢迎的商品,没有足够多的清单来支持所有维度,所以要丢弃一些维度。对于一些产品,放弃星期几这一维度就OK。对于已协商产品,只是基于三个维度而不是基于四个维度之间的比较。对于一些产品,甚至只留下一个维度,对于这类产品,要做的就是持续删除维度并合并单元格,直到每个单元格含有足够的多的数据。

将客户分配大RFM单元中,三个RFM变量需要转化为三个量化指标。近期:距离上次购买的天数或周数,用于得到R的得分。

THE END
1.数据挖掘概念(AnalysisServices该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: 您在查找什么?您要尝试找到什么类型的关系? 您要尝试解决的问题是否反映了业务策略或流程? 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联? https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.大数据挖掘价值洞察研究大数据挖掘价值-洞察研究 下载积分: 1388 内容提示: 大数据挖掘价值 第一部分 大数据挖掘概述 2 第二部分 大数据挖掘技术 4 第三部分 大数据挖掘应用场景 https://www.doc88.com/p-69619764087796.html
3.数据挖掘dm是什么意思帆软数字化转型知识库数据挖掘dm是什么意思 数据挖掘(Data Mining,简称DM)是一种从大量数据中提取有价值信息的技术,它通过模式识别、统计分析、机器学习等方法来发现数据之间的关联和趋势。数据挖掘的核心在于从看似无序的数据中挖掘出有意义的模式和关系。这些信息可以用于商业决策、市场分析、科学研究等多个领域。例如,在商业决策中,通过https://www.fanruan.com/blog/article/598648/
4.深度解析数据挖掘如何进行数据挖掘 数据挖掘听起来可能只有大企业才能做,但只要按照阶段进行,任何公司都可以做到。为此,我们推荐使用CRISP-DM(跨行业数据挖掘标准流程)。CRISP-DM(Cross-Industry Standard Process for Data Mining)是一种跨行业的数据挖掘标准流程。它提供了一套结构化的步骤和方法,帮助数据挖掘项目团队规划、实施https://baijiahao.baidu.com/s?id=1772272932209270558&wfr=spider&for=pc
5.什么是数据挖掘?(DM与DWOLAPCRM的区别)数据挖掘中的dw(DM 与DW 、OLAP、CRM 的区别) 什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。https://blog.csdn.net/christmasxu/article/details/52153710
6.什么是DM?()A.数据仓库B.数据挖掘C.数据分析D.数据处理什么是DM?( ) A. 数据仓库 B. 数据挖掘 C. 数据分析 D. 数据处理 点击查看答案 你可能感兴趣的试题 单项选择题铣床加工要手工进料,因此其生产效率和加工质量要比压刨低。( ) A、正确 B、错误 点击查看答案 不定项选择 面膜的防腐首要要求具有安全性,其次要求高效、广谱、扩散性和持久性。 A.正确http://www.ppkao.com/wangke/daan/387b0239197a4b11acf5b41d3b04cb53
7.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
8.数据挖掘分析平台(DMPlus)挖掘数据价值、寻找数字“金矿“ 概述 数据挖掘分析平台(DMPlus)是什么? 如何从海量数据中找到有价值的数据?什么是有价值的数据? DMPlus提供一个开放的数据挖掘分析平台,极易操作的可视化编辑页面,降低数据挖掘门槛,通过拖拽式流程设计,快速实现各类数据挖掘应用。提供数据计算脚本管理,提供计算任务管理,提供数据计算任务http://www.sudytech.com/_s2/4799/list.psp
9.数据挖掘与数据建模的9大定律(深度长文收藏细读!)虽然CRISP-DM能够指导如何实施数据挖掘,但是它不能解释数据挖掘是什么或者为什么适合这样做。在本文中我将阐述我提出数据挖掘的九种准则或“定律”(其中大多数为实践者所熟知)以及另外其它一些熟知的解释。开始从理论上(不仅仅是描述上)来解释数据挖掘过程。 https://cloud.tencent.com/developer/article/1041773
10.利用DM工具Weka进行数据挖掘(分类)的完整过程利用DM工具Weka进行数据挖掘(分类)的完整过程: (有关Weka的使用详见:ML 与 DM 工具 Weka 的使用) 0 问题背景 任务:根据给定数据集创建分类器。 训练数据集:100 predictive attributes A1,…,A100和一个类标C。每一个属性是介于0-1之间的浮点数https://www.cnblogs.com/shenxiaolin/p/7892611.html
11.数据挖掘技术在客户关系管理中如何应用二、数据挖掘(DM) 数据挖掘(Data Mining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。 https://www.wenshubang.com/xingzhengguanlibiyelunwen/151599.html
12.物流服务质量评价模型与方法研究综述(SEM)和多变量统计数据从實证角度分析物流服务质量的影响因素;17.1%的文献使用质量函数开发法(QFD)、情感工程法(AE)和数据挖掘法(DM)等方法将消费者需求转换为企业质量特征,其中模糊层次分析法(FAHP)或层次分析法(AHP)主要用于计算评价指标的权重,占9.21%,只有2篇论文(占2.6%)侧重于数据挖掘或其他收集消费者需求https://www.fx361.com/page/2021/0224/7663320.shtml
13.技术经济分析报告(三)数据挖掘(DM)技术 数据挖掘可以称为数据库中的知识发现,是从大量数据中提取出可信、新颖有效并能被人理解的模式的高级处理过程,是数据库技术、人工智能、神经网路、机器学习等领域的交叉学科。数据挖掘是一个过程,是从大型数据库中抽取隐藏其中的可理解的可操作的信息,目的是帮助分析、决策人员寻找数据之间的关联https://www.ruiwen.com/fenxibaogao/8332890.html
14.dm是什么意思数据挖掘理想股票技术论坛DM在数据挖掘中的含义及相关技术介绍。 ,理想股票技术论坛https://www.55188.com/tag-09806214.html
15.大数据之数仓概念这几天看了一些专业的解释,还是对ODSDW和DMDM:目前网上有两种说法,一说数据集市(Data Mart);一说数据挖掘(Data Mining),百度百科给出的是数据挖掘的概念,我这里将这两种说法都做了解释: DM(Data Mart):数据集市,以某个业务应用为出发点而建立的局部DW,DW只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用,每个应用有自己的DM。 https://juejin.cn/post/6844904058260570119
16.数据挖掘与分析心得体会数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤! 由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数https://www.360wenmi.com/f/file46470luq.html
17.数据挖掘技术论文(5篇).docx二、数据挖掘(DM) 数据挖掘(DataMining,简称DM),简洁的讲就是从大量数据中挖掘或抽取出学问。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感爱好的学问,这些学问是隐讳的、事先未知的、潜在有用的信息。 常用的数据挖掘方法有:(1)https://max.book118.com/html/2023/0614/7012161003005122.shtm