数据挖掘模型和挖掘步骤技术方案|数据挖掘的步骤和实例_在线学习

随着中国电信的改革重组，中国通信业取得了跨越式的发展，成为国民经济中发展速度最快的行业之一，中国通信业总规模现已在世界排名第一。与此同时，中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来，通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中，没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务，促进通信业务发展，从而为通信业提供决策支持服务，已经成为各个通信单位的当务之急。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别：分类时，我们事先选择一些属性作为分类标准，通信企业总是会将重要的、有影响力的属性作为分类的依据；而在实际应用当中，通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中，聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量，并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类：普通客户、价值客户和黄金客户，其中普通客户消费行为有较大的随机性，分布较广，规律难寻，比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量，把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP-DM（Cross-IndustryProcessforDataMining）过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务，将数据挖掘技术和实际应用紧密结合。CRISP-DM过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布，如图3-9所示。该过程的各个环节按顺序进行，但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题，先不考虑循环往复的探索和调优过程，直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下，就可以开始进行挖掘的工作了。

1．数据准备

数据准备过程如下：

（1）确定项目目标，制定挖掘计划。

（2）分析变量的获取。

（3）数据收集和获取。（4）数据集成。

依据CRISP-DM流程，第一要确定项目目标，之后制定挖掘计划。首先必须明确项目的商业目标，这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户，从客户行为的角度进行客户分类，以了解不同客户群的消费行为特征，为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据，并实现企业稳定现有客户量、提高客户增长量的战略目标"。

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1客户行为特征信息表

客户的通信行为

客户的需求特征类别

短消息使用次数

移动梦网使用次数

GPRS数据流量

方便性及信息实时性的需求

IP长途使用次数

优惠时段通话次数

套餐定制和使用次数

拨打10086次数

对资费的敏感程度

本地、长途、漫游呼叫时长

本地、长途、漫游呼叫次数

工作/休息时段、优惠/非优惠时段）

呼叫类型（主叫、被叫、呼叫转移）

对通话的多层次需求

服务种类

对个性化服务的需求程度

基于客户需求和上述行为特征信息表，定义了几组细分变量，d_代表时常，t_代表频率，见表3-2。在这里只列出通话形式和通话比例表。

表3-2细分变量表（简表）

通话形式

市话

d_local

t_local

省内长途

d_toll_InProvince

t_toll_InProvince

跨省长途

d_toll_BetweenProvince

t_toll_BetweenProvince

国际长途

d_toll_htm

t_toll_htm

通话比例

网内通话

d_mob_Ttl

t_mob_Ttl

联通通话

d_uni_Ttl

t_uni_Ttl

小灵通通话

d_phs_Ttl

t_phs_Ttl

d_fix_Ttl

t_fix_Ttl

2．数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动，是数据挖掘过程中最耗时的环节，甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

3．建立模型

在生成最终的数据集后，就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术，同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

不同的技术方案产生的模型结果有很大不同，而且模型结果的可理解性也存在较大差异。另外，对结果的分析和描述也很关键，不恰当的描述会造成误导。需要指出的是，不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略，而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定，以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升，不断优化的过程，在每一次聚类结束后，需要判断聚类结果在业务上是否有意义，其各群特征是否明显。如果结果不理想，则需要调整聚类模型，对模型进行优化，称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现，也可以通过多次运行，选择满意的结果。通常可以依据以下原则判断聚类结果是否理想：类间特征差异是否明显；群内特征是否相似；聚类结果是否易于管理及是否具有业务指导意义。

4．模型评估

通过上面的处理，就会得到一系列的分析结果和模式，它们是对目标问题多侧面的描述，这时需要对它们进行验证和评价，以得到合理的，完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证，通过对几种模型的综合比较，产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾，从而决定是否存在重要的因素或任务由于某些原因而被忽视，此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤，可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行，这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验，或另找一批数据对其进行检验，也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘，并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化，还需要回到前面的步骤进行调整。

THE END

数据挖掘模型和挖掘步骤技术方案

就业决策分析范文

数据挖掘课程样例十一篇

数据挖掘（第2版）全套教学课件.pptx

数据挖掘模型和挖掘步骤技术方案

数据挖掘课程范例6篇

r语言数据分析与挖掘实战pdf下载张良均高清扫描版

第8章闪存数据库查询处理

视频课程R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

数据挖掘：基本概念理解何永灿