数据挖掘最常见的十种方法赵哲丽|数据挖掘的方法包括哪些_在线学习

下面介绍十种数据挖掘（DataMining）的分析方法，以便于大家对模型的初步了解，这些都是日常挖掘中经常遇到的算法，希望对大家有用！（甚至有数据挖掘公司，用其中的一种算法就能独步天下）

1、基于历史的MBR分析（Memory-BasedReasoning；MBR）

基于历史的MBR分析方法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。

记忆基础推理法中有两个主要的要素，分别为距离函数（distancefunction）与结合函数（combinationfunction）。距离函数的用意在找出最相似的案例；结合函数则将相似案例的属性结合起来，以供预测之用。记忆基础推理法的优点是它容许各种型态的数据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2、购物篮分析（MarketBasketAnalysis）

购物篮分析基本运作过程包含下列三点：

（1）选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。

（2）经由对共同发生矩阵（co-occurrencematrix）的探讨挖掘出联想规则。

购物篮分析技术可以应用在下列问题上：

（1）针对信用卡购物，能够预测未来顾客可能购买什么。

（2）对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。

（3）保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。

（4）对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3、决策树（DecisionTrees）

决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

4、遗传算法（GeneticAlgorithm）

遗传算法学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由一连串类似产生新细胞过程的运作，利用适合函数（fitnessfunction）决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集（cluster）问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。

5、聚类分析（ClusterDetection）

这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。

6、连接分析（LinkAnalysis）

7、OLAP分析（On-LineAnalyticProcessing；OLAP）

严格说起来，OLAP分析并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8、神经网络（NeuralNetworks）

9、判别分析（DiscriminantAnalysis）

当所遭遇问题它的因变量为定性（categorical），而自变量（预测变量）为定量（metric）时，判别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体—判别分析（Two-GroupDiscriminantAnalysis）；若由多个群体构成，则称之为多元判别分析（MultipleDiscriminantAnalysis；MDA）。

（2）检定各组的重心是否有差异。

（3）找出哪些预测变量具有最大的区别能力。

（4）根据新受试者的预测变量数值，将该受试者指派到某一群体。

10、罗吉斯回归分析（LogisticAnalysis）

当判别分析中群体不符合正态分布假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。

THE END

数据挖掘最常见的十种方法赵哲丽

揭秘！8步让你成为数据分析高手！数据源大模型神经网络

数据挖掘最常见的十种方法

数据挖掘的挖掘方法包括（）

数据挖掘最常见的十种方法赵哲丽

跨境电商数据挖掘的工具和方法（一）

数据挖掘的四种基本方法

CDALEVELⅡ?数据分析师考试?纲