数据挖掘最常见的十种方法

下面介绍十种数据挖掘(DataMining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!(甚至有数据挖掘公司,用其中的一种算法就能独步天下)

1、基于历史的MBR分析(Memory-BasedReasoning;MBR)

基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。

记忆基础推理法中有两个主要的要素,分别为距离函数(distancefunction)与结合函数(combinationfunction)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2、购物篮分析(MarketBasketAnalysis)

购物篮分析基本运作过程包含下列三点:

(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。

(2)经由对共同发生矩阵(co-occurrencematrix)的探讨挖掘出联想规则。

购物篮分析技术可以应用在下列问题上:

(1)针对信用卡购物,能够预测未来顾客可能购买什么。

(2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。

(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。

(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3、决策树(DecisionTrees)

决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。

4、遗传算法(GeneticAlgorithm)

遗传算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitnessfunction)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。

5、聚类分析(ClusterDetection)

这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。

6、连接分析(LinkAnalysis)

7、OLAP分析(On-LineAnalyticProcessing;OLAP)

严格说起来,OLAP分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8、神经网络(NeuralNetworks)

9、判别分析(DiscriminantAnalysis)

当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体—判别分析(Two-GroupDiscriminantAnalysis);若由多个群体构成,则称之为多元判别分析(MultipleDiscriminantAnalysis;MDA)。

(2)检定各组的重心是否有差异。

(3)找出哪些预测变量具有最大的区别能力。

(4)根据新受试者的预测变量数值,将该受试者指派到某一群体。

10、逻辑斯蒂回归分析(LogisticAnalysis)

当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。

所谓频繁模式挖掘,指的是比如在商品交易数据库记录中,找出一起出现的商品集合,这些商品集合出现的频率要高于一个阈值,这些经常出现的商品集合称之为频繁模式。

频繁模式的思路很简单,首先统计出每个单个商品出现的次数,这就构成了一个一维表。然后再根据一维表,商品两两组合产生一个二维表。然后再由二维表产生三维表,直至到n维表。其中可以利用apriori,进行剪枝,也就是说一维表中如果出现的频率低于阈值的商品,就可以直接去掉,应为包含该商品的高维商品集合的出现频率不可能高于该阈值,可以直接剪枝去掉。

频繁模式挖掘还有一种更加高效的方式,就是FPGrowth,该方法通过扫描一遍数据库,在内存中构造一颗FPtree,基于这棵树就可以产生所有的频繁模式。很显然FPGrowth算法的效率要高很多,但是其缺陷也很明显,在内存中维护一颗FPtree的开销也是很大的。为了解决这个问题,一个直接的思路是将数据库水平分表到各台机器上,在各台机器上执行本地的FPGrowth,然后再将各台机器上的结果汇总起来,得到最终的FPGrowth的结果。

所谓关系挖掘,值得是挖掘出各个项目之间的因果关系。关系挖掘的基础是频繁模式挖掘,通过频繁模式挖掘,很容易得出关系,举例就很容易明白,比如我们得到一个频繁集合:

那么通过排列组合可以得到l的子集集合:

那么很容易得到下面的推理集合,也就是挖掘出的关系:

所有的关系挖掘本质上都是基于频繁模式推导出来的。

在关系挖掘中,有一种非常有用的关系模式挖掘:miningquantitativeassociationrules。所谓quantitativeassociationrules是这样一种关系模式:

该关系模式的挖掘,首先是确定我们所感兴趣的属性:quan1,quan2,cat,然后根据事先确定的间隔,将quan1,quan2按照一定的间隔划分成一定的catorgory,然后进行频繁模式挖掘,得出一些关系,然后将这些关系按照grid进行聚合,生成最后的关系模式。

通过关系挖掘挖出的关系中往往有很多不是非常有用,因此需要通过另外的指标排除一些这样的关系,这个指标就是correlation,如下:

分类树

分类树是一种很常用的分类方法,它该算法的框架表述还是比较清晰的,从根节点开始不断得分治,递归,生长,直至得到最后的结果。根节点代表整个训练样本集,通过在每个节点对某个属性的测试验证,算法递归得将数据集分成更小的数据集.某一节点对应的子树对应着原数据集中满足某一属性测试的部分数据集.这个递归过程一直进行下去。

该算法是数据挖掘中常用的一类方法。

贝叶斯分类器

贝叶斯分类的思想很简单,就是计算属性和分类之间的条件概率,选择使得条件概率最大的分类作为最终的分类结果,这是一种基于统计的分类方法,得到了广泛的引用。

贝叶斯分类器分为两种,一种是朴素贝叶斯分类器,它基于贝叶斯理论:

其中X代表特征向量,C代表分类.我们的目标就是找出使得这个后验概率最大的那个类.

其中需要注意的是X中的各个特征分量是分布独立的.这样就有:

朴素贝叶斯分类器最经典的应用场景就是垃圾邮件过滤。

朴素贝叶斯分类器的升级版本就是贝叶斯网络,因为朴素贝叶斯网络假设样本的特征向量的各个特征属性是独立的,但对于现实世界,这样的建模未必合理,因此有人就提出了贝叶斯网络,贝叶斯网络假设各个属性之间是存在条件概率的。贝叶斯网络是一个各个属性组成的有向拓扑网络,每条边代表条件概率,通过贝叶斯网络能够计算出各个属性相互组合的条件概率。

基于规则的分类器

这种分类器利用IFTHEN的规则来进行分类。对于如何产生规则,有两种方法:

第一种方法,就是从决策树中生成规则。因为决策树天然的就是规则。

第二种方法,是采用SequentialCoveringAlgorithm,直接从训练样本中生成规则集。该方法的思路是一种general-to-specific的方法,该方法从一个空规则开始,然后向规则中依次逐渐增加属性测试条件,选择该属性测试值(也就是测试分界点,attr<>

基于神经网络的分类器

神经网络分类器是依据属性构造一个网络拓扑结构,该拓扑结构的边具有权重值,我们的目的是不断得利用训练样本然后不断得更新神经网络的边权重值。然后利用该网络就可以得到输出的分类。

该算法模拟神经的组成结构,利用了单元之间的反馈机制。但该算法的缺点也很明显,网络拓扑结构的确定没有明确统一的方法论,很多只能靠规划者的经验,因此训练结果往往因人而异,限制了神经网络的使用。

支持向量机分类器

支持向量机是在训练样本空间中构造超平面来对样本进行分类,它的优势是对高维度不敏感。但效率较低,实施较为复杂。

关联分类器

关联分类器的思路很简单,前面我们提到频繁模式挖掘,我们将样本的某一属性的(属性,值)对作为一个条目,我们找出经常在一起出现的条目集合,然后找出这些频繁项目集合,这些频繁项目集合对应的样本集合中占主流的分类就作为关联规则的分类结果,该结果如下:

关联分类器有三种方法:CBA,CMAR和CPAR

LazyLearner

LazyLearner主要有两种分类器:Knn分类器和Cbr分类器。

Knn分类器思路很直接,找出和待分类样本最近的K的样本,然后将这k个样本中占主流的的类别作为分类结果分配给待分类样本。该分类器的关键在于如何确定k,一种思路是根据经验,另外一种思路是迭代,让k从1开始递增,计算每个k取值时对某一测试集的错误率,选择错误最小的那个k。另外一个关键就是如何快速得找出k个最近的邻居,这需要我们对各个样本点进行事先排序,并设计一个合适的数据结构,使得找出k个最近邻居的复杂度降为log|D|.

预测

所谓预测,就是根据既有的数据预测新出现的数据的预测值。预测有两种方法,线性回归和非线性回归。所谓线性回归,指的是

Y=b+wX公式1

其中X可以是向量,比如(x1,x2),因此线性回归则变成

y=w0+w1*x1+w2*x2公式2

对于公式1,其目标就是求出w向量。那么比较常用的方法就是最小二乘法,使得求出的w对于已有的样本使其方差和最小。方差和就是目标函数,目标函数就是自变量w的一个函数,通过求导求极值,很容易得到使得目标函数最小的w的值。通过一些软件包,如SAS,matlab,SPSS很容易做这种线性回归的w计算。

并不是所有的模型都是线性模型,实际的问题中很多模型是非线性的,比如多项式,如下

y=w0+w1*x+w2*x*x+w3*x*x*x

解决这种问题的思路是将非线性模型转化为线性模型,然后再用线性回归的方法来解决。比如上面的多项式公式,我们令

x1=xx2=x*xx3=x*x*x

这样就变成了y=w0+w1*x1+w2*x2+w3*x3,这就变成了线性回归的问题。

聚类是数据挖掘需要解决的另外一个问题,分类是我们知道确切的分类结果,知道我们需要将样本分成具体的哪几类。而聚类问题是实现不知道我们的样本具体属于哪些类别,而需要我们从样本中发掘出这些类别。下面谈几种较为通用的聚类方法谈谈。

基于分区的聚类法

该方法的一个典型的方法就是K-means,该方法非常简单,首先确定我们需要将数据样本分成多少个类,这个需要确定,我们称之为k。然后从样本中任意选择k个样本作为k个类的中心,然后计算每个样本到这k个中心的距离,把他们分配到最相近的类。这样就得到k个聚类,然后重新计算这k个聚类的中心,然后再重复前面的过程,直至没有样本被重新分配从而达到收敛。下面是k-means的伪码

基于层次的分类法

基于层次的分类法有两种:凝聚和分裂。

凝聚:它基于一种自底而上的策略,在最开始的时候,每个样本都代表一个聚类,然后计算两两之间的区分度,然后进行合并,这个合并一直按照这样的方式持续下去,直至所有的样本都被合并为一个类。

分裂:它基于一种自上而下的策略,在最开始的时候,所有的样本都是一个类,然后会依据一些区分方法,进行分裂,直至每个样本都分裂成一个聚类。

基于层次的分类法,其意义在于其他的聚类方法引入这种基于层次的思路,可以被改造成一个多阶段的的聚类方法,可以大大改进聚类的质量。

基于密度的分类法

这种方法的一个代表就是DBSCAN。要理解DBSCAN,首先要明白这么几种概念:

某一样本在e半径内的邻居称之为e-邻居。

如果某一样本的e-邻居个数大于某一最小值,那该样本被称之为核心样本。

如果q是核心样本,p是q的e-邻居,那么p是q的直接密度可达。

对于一个样本链p1,p2,..pn,如果p1=q,pn=p,pi+1是pi的直接可达,那么p就是q的密度可达。

如果p,q都是o的密度可达,那么p,q就是密度连通的。

有了这些概念,算法就很简单了,首先找出样本中所有的核心样本,那么基于这些核心样本,这些核心样本就代表某一个聚类。遍历这些核心样本,不断找到他们的密度可达的样本,其间某些样本就会被不断合并,直至所有的样本分类趋于稳定,不会再有新的点被加入各个聚类。

基于grid的聚类法

这种方法虽然不是一种显然的聚类法,但它确实可以用来聚类,因为query返回的样本实际上就是某一聚类。Query本质上于聚类问题是有等价性的。

基于模型的聚类法

这种聚类法可以用来增强K-means。样本假设可以被分为K个聚类,每个聚类可以被看成一种分布,比如高斯分布(高斯分布很符合K-means),K个聚类就是K个高斯分布模型,但我们不知道K个模型的具体参数。由于这是k个不同的高斯模型的混合体,因此每个样本实际上除了本身属性值之外还包含了一个隐藏变量(该隐藏变量用以表示该样本是由哪个高斯模型产生的),这实际上就是一个典型的EM算法的应用场景,除了估计这k个模型的参数,还需要估计隐藏变量。接下来就是利用EM来估计这些参数(模型参数和隐藏变量),估计出的隐藏变量就代表样本的聚类。

对高维样本进行聚类

CLIQUE是这种方法的一个代表,其思想是从低维到高维(1维到n维)进行查询,首先在低维空间内找到densentiyunit,然后在低维空间的densentiyunit中在继续寻找较高维空间中的densentiyunit。它本质上也是grid聚类法,它不是一种显然的聚类法,也是通过query来实现隐式得聚类。

有限制条件的聚类

这种聚类方法需要有一些特别的策略,需要针对不同场景,不能一概而论。这里就不讲了。

奇点检测

检测奇点非常有用,用于检测那些不同寻常的数据。比如最常用的思路是基于距离的,如果一个样本在一定距离内的邻居很少,那么他就可以被认为是奇点。另外还有基于统计概率的,基于密度的等等。

THE END
1.离散化方法(数据挖掘)MicrosoftLearn离散化方法(数据挖掘)在SQL Server Analysis Services 中创建数据挖掘模型时所用的某些算法需要特定的内容类型才能正常运行。例如,Microsoft Naive Bayes 算法的输入不能为连续列,并且不能预测连续值。另外,有些列可能会因包含的值太多而导致算法不易标识数据中据以创建模型的相关模式。 在这些情况下,可以将列中的https://msdn.microsoft.com/zh-cn/magazine/ms174512(v=sql.105)
2.下面()不是数据挖掘的常用方法。A.关联规则挖掘B.分类分析C下面( )不是数据挖掘的常用方法。 A.关联规则挖掘B.分类分析C.聚类分析D.结构化开发热门考试 高考 一级建造师 二级建造师 初级经济师 中级经济师 教师资格证 企业法律顾问 注册会计师CPA 中级会计师 考研 百度题库 百度题库旨在为考生提供高效的智能备考服务,全面覆盖中小学财会类、建筑工程、职业https://tiku.baidu.com/web/singledetail/a333e9d8d15abe23482f4db6?tosite=wenkutiku1
3.以下哪项不属于数据挖掘方法()刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供以下哪项不属于数据挖掘方法()A.方差分析B.聚类C.爬虫D.回归分析的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,制作自己的电子错https://www.shuashuati.com/ti/337589890f4c492f864265197854e6e6.html?fm=bde35f642b62e10d7c3966f4cc41e81e89
4.下列不属于数据挖掘的方法是()下列不属于数据挖掘的方法是() A.决策树 B.数据可视化 C.神经网络 D.甘特图 查看答案https://www.shangxueba.com/ask/24253162.html
5.数据挖掘的数据源不包括哪些数据挖掘的功能不包括数据挖掘的数据源不包括哪些 数据挖掘的功能不包括 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对) 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)https://blog.51cto.com/u_16213616/9050399
6.数据挖掘有哪些帆软数字化转型知识库数据挖掘包括:分类、聚类、关联规则、回归分析、时间序列分析、异常检测、文本挖掘。分类是将数据集分成不同类别的过程,广泛应用于邮件过滤、医疗诊断等领域。分类是一种监督学习方法,它使用已知类别的训练数据来构建模型,然后对新数据进行分类。常见的分类算法包括决策树、支持向量机、朴素贝叶斯等。决策树通过递归地分割https://www.fanruan.com/blog/article/576370/
7.数据挖掘论文在进行现代档案信息处理时,传统的档案管理方法已经不能满足其管理的要求,数据挖掘技术在这方面确有着显著的优势。首先,档案是较为重要的信息记录,甚至有些档案的重要性大到无价,因此对于此类的珍贵档案,相关的档案管理人员也是希望档案本身及其价值一直保持下去。不过越是珍贵的档案,其使用率自然也就越高,所以其安全https://www.unjs.com/lunwen/f/20220924130749_5650839.html
8.数据分析真题日刷京东2019春招京东数据分析类试卷(3)贝叶斯分类方法(朴素贝叶斯算法和EM算法); (4)规则归纳(AQ算法、CN2算法和FOIL算法)等。 (待补充规则归纳的知识~) 参考资料: 《机器学习-分类简单介绍)(https://www.cnblogs.com/gccbuaa/p/6756828.html) 16.数据挖掘的挖掘方法包括:( ) A. 聚类分析 https://blog.csdn.net/weixin_44915703/article/details/93913370
9.数据挖掘七种常用的方法汇总腾讯云开发者社区数据挖掘七种常用的方法汇总 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可https://cloud.tencent.com/developer/article/1892597
10.数据挖掘与分析的六种经典方法论3、DMAIC方法 六西格玛(Six Sigma,6 Sigma)是一种项以数据为基础,追求“零缺陷”的质量管理方法。六西格玛在商业中应用是DMAIC,包括五个步骤:定义(Define)、度量(Measure)、分析(Analyze)、改进(Improve)和控制(Control)。DMAIC方法在商业领域和环境中已得到了成功应用,它在数据挖掘项目中也能寻得一席之地。 https://www.niaogebiji.com/article-30475-1.html
11.信息系统项目管理师重点内容汇总(第八天)需求分析对已经获取到的需求进行提炼、分析和审查,以确保所有的项目干系人都明白其含义并找出其中的错误、遗漏或其他不足的地方。 使用结构化分析 (Structured Analysis,SA) 方法进行需求分析,其建立的模型的核心是数据字典。围绕这个核心,有三个层次的模型,分别是数据模型、功能模型和行为模型(也称头状态模型)。在实https://developer.aliyun.com/article/1416724
12.在数据挖掘的分析方法中,直接数据挖掘包括()【题目】 在数据挖掘的分析方法中,直接数据挖掘包括() 【题目】在数据挖掘的分析方法中,直接数据挖掘包括() A、分类 B、关联 C、估值 D、预言 纠错 查看答案 查找其他问题的答案?https://www.zikaosw.cn/daan/19097898.html
13.2022年4月自考00896电子商务概论真题试卷自考15.客户关系管理系统中,利用数据挖掘等方法研究客户需求变化的模块属于 A.客户分析模块 B.销售过程管理模块 C.营销自动化模块 D.客户信息管理模块 17.某大型企业开发了电子采购系统,用于促进供应商选择与评价、提高采购管理效率,该电子采购系统属于 A.行业平台 https://www.educity.cn/chengkao/5001913.html
14.商战数据挖掘:你需要了解的数据科学与分析思维例如:“客户是聚集成自然组群还是被划分成了不同部分?”聚类在初步的领域探索中非常有用,它可以找出可能存在的自然组群,而这些群组会给下一步的数据挖掘任务和方法提供线索。聚类还能作为信息输入到某些决策过程中,以帮助回答“应该提供或开发哪些产品”“客户服务团队(或销售团队)应如何构建”等问题。第 6 章将https://www.ituring.com.cn/book/tupubarticle/28952
15.数据挖掘技术主要包括哪些?数据挖掘的技术,可分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法,可细分为:回归https://m.imooc.com/wenda/detail/508957
16.科学网—时空视频数据挖掘:让罪犯无所遁迹基于聚类分析的事件检测方法包括时空衍生和协同嵌入式原型等,都是通过对权重矩阵进行谱图分割来检测出事件片断,权重矩阵通过计算视频片断之间的相似性来确定。 三、基于地理信息空间分布的视频时空数据挖掘系统 将视频与GIS相结合,通过连续的视频数据自动挖掘得到连续的信息,再由GIS得到空间的信息,两者结合可进行有意义的https://blog.sciencenet.cn/blog-528739-858610.html
17.网络营销全部58.下列不属于客户视角网络营销绩效考核指标的是()。 A.独立访客数B.人均购买量C.货周转率D.网站登录次数【注释】:第九章第九节 第269页 客户视角考核指标包括20项,但不包括货周转率 59.数据挖掘分析方法中,聚类分析的主要目的是()。 A.找出数据之间的属性联系,形成关联规则B.把一组个体按照相似性归成若干类https://www.wjx.cn/xz/261160017.aspx
18.常见的数据挖掘方法包括()。常见的数据挖掘方法包括( )。 A、监督学习 B、半结构化数据 C、无监督学习 D、半监督学习 E、非结构化数据 查看答案解析 点击进入“每日一练——免费在线测试”>> 中级经济师:每日一练《中级人力》(03.01) 中级经济师:每日一练《中级工商》(03.01) 中级经济师:每日一练《中级财政税收》(03.01) 中https://www.chinaacc.com/zhongjijingjishi/shiti/zh20230301084337.shtml
19.大数据在高等教育领域中的应用及面临的挑战国家政策法规应用教育数据挖掘和学习分析方法进行教育大数据分析的基本过程包括多个不同环节,如数据的采集、报告、预测、行动和完善等(如图2)。 图2 教育大数据分析的基本过程 教育大数据分析的基本取向可以分为两类:一类是数据驱动的分析取向(如图3),另一类是内容或需求驱动的分析取向(如图4)。数据驱动的分析取向是从拥有的关键数https://manager.hkxy.edu.cn/s.php/pgztw/item-view-id-54267.html
20.数据处理方法有哪些,掌握这些技巧让你轻松应对数据分析问题根据数据处理手段的不同,数据处理方法可以分为以下几种: 1.预处理方法:这种方法主要是在数据采集之后进行的,目的是减少数据所包含的噪声成分和冗余信息,提高结果的准确性。预处理方法一般包括数据清洗、数据采样、数据变换等。 2.数据挖掘方法:数据挖掘是从大量数据中发现隐藏在其中的有价值的信息的过程。数据挖掘方法https://www.jiandaoyun.com/fe/sjclffynxz/