利用数据挖掘进行数据分析常用的方法——主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、WEB页挖掘等,它们分别从不同的角度对数据进行挖掘。
数据分类:
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。
回归分析
聚类分析
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到群体的分类、背景分析、趋势预测等。
关联规则
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
在管理中,通过对数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响效果的关键因素,为定位、细分与保持,风险评估等决策支持提供参考依据。
特征分析
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。对流失因素的特征提取,可以得到导致流失的一系列原因和主要特征,利用这些特征可以有效地预防流失。
变化和偏差分析
偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。
在危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
WEB页挖掘
随着INTERNET的迅速发展及WEB的全球普及,使得WEB上的信息量无比丰富,通过对WEB的挖掘,可以利用WEB的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些有重大或潜在重大影响的外部环境信息和内部经营信息。
并根据分析结果找出管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
什么是数据处理?
数据处理是对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前的必不可少的阶段。
数据处理的基本目的是从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值、有意义的数据。
第一步,数据清洗。顾名思义,数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。
第二步,数据加工。要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据。
缺失数据处理的四种方法
1.用一个样本统计量的值代替缺失值,常用的做法是使用该变量的样本平均值代替缺失值。
2.用一个统计模型计算出来的值去代替缺失值。常用的模型有回归模型、判别模型等。
3.将有缺失值的记录删除,不过可能会导致样本量的減少。
4.将有缺失值的记录保留,仅在相应的分析中做必要的排除。