数据挖掘模型和挖掘步骤技术方案

随着中国电信的改革重组,中国通信业取得了跨越式的发展,成为国民经济中发展速度最快的行业之一,中国通信业总规模现已在世界排名第一。与此同时,中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来,通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中,没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务,促进通信业务发展,从而为通信业提供决策支持服务,已经成为各个通信单位的当务之急。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别:分类时,我们事先选择一些属性作为分类标准,通信企业总是会将重要的、有影响力的属性作为分类的依据;而在实际应用当中,通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中,聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量,并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类:普通客户、价值客户和黄金客户,其中普通客户消费行为有较大的随机性,分布较广,规律难寻,比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量,把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP-DM(Cross-IndustryProcessforDataMining)过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务,将数据挖掘技术和实际应用紧密结合。CRISP-DM过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布,如图3-9所示。该过程的各个环节按顺序进行,但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题,先不考虑循环往复的探索和调优过程,直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下,就可以开始进行挖掘的工作了。

1.数据准备

数据准备过程如下:

(1)确定项目目标,制定挖掘计划。

(2)分析变量的获取。

(3)数据收集和获取。(4)数据集成。

依据CRISP-DM流程,第一要确定项目目标,之后制定挖掘计划。首先必须明确项目的商业目标,这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户,从客户行为的角度进行客户分类,以了解不同客户群的消费行为特征,为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据,并实现企业稳定现有客户量、提高客户增长量的战略目标"。

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1客户行为特征信息表

客户的通信行为

客户的需求特征类别

短消息使用次数

移动梦网使用次数

GPRS数据流量

方便性及信息实时性的需求

IP长途使用次数

优惠时段通话次数

套餐定制和使用次数

拨打10086次数

对资费的敏感程度

本地、长途、漫游呼叫时长

本地、长途、漫游呼叫次数

工作/休息时段、优惠/非优惠时段)

呼叫类型(主叫、被叫、呼叫转移)

对通话的多层次需求

服务种类

对个性化服务的需求程度

基于客户需求和上述行为特征信息表,定义了几组细分变量,d_代表时常,t_代表频率,见表3-2。在这里只列出通话形式和通话比例表。

表3-2细分变量表(简表)

通话形式

市话

d_local

t_local

省内长途

d_toll_InProvince

t_toll_InProvince

跨省长途

d_toll_BetweenProvince

t_toll_BetweenProvince

国际长途

d_toll_htm

t_toll_htm

通话比例

网内通话

d_mob_Ttl

t_mob_Ttl

联通通话

d_uni_Ttl

t_uni_Ttl

小灵通通话

d_phs_Ttl

t_phs_Ttl

d_fix_Ttl

t_fix_Ttl

2.数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

3.建立模型

在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升,不断优化的过程,在每一次聚类结束后,需要判断聚类结果在业务上是否有意义,其各群特征是否明显。如果结果不理想,则需要调整聚类模型,对模型进行优化,称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现,也可以通过多次运行,选择满意的结果。通常可以依据以下原则判断聚类结果是否理想:类间特征差异是否明显;群内特征是否相似;聚类结果是否易于管理及是否具有业务指导意义。

4.模型评估

通过上面的处理,就会得到一系列的分析结果和模式,它们是对目标问题多侧面的描述,这时需要对它们进行验证和评价,以得到合理的,完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视,此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤,可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行,这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘,并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化,还需要回到前面的步骤进行调整。

THE END
1.数据挖掘的过程和方法最后就是评估挖掘结果了。你得看看你挖出来的东西有没有意义。这个时候你就可以对比之前设定的目标了。我经常发现我以为挖掘成功了,但一对比发现跟目标偏离了,就又得再调整前面的步骤重新来。不过失败了也没关系,每次失败都能让我离成功更近一点。数据挖掘就是这样不断尝试,不断调整的过程,急不得。?https://wenku.baidu.com/view/7f1168947075a417866fb84ae45c3b3567ecddb0.html
2.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 数据收集数据预处理数据分析结果评估结果展示 各步骤详解 1. 数据收集 这一阶段收集待分析的数据,可能来自数据库、CSV文件、API接口等多种来源。示例代码如下: importpandasaspd# 从CSV文件读取数据data=pd.read_csv('data.csv')# 读取名为dahttps://blog.51cto.com/u_16213297/12863680
3.数据挖掘概念(AnalysisServices有关如何将 SQL Server 工具应用于业务方案的示例,请参阅数据挖掘基础教程。 定义问题 与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
4.数据挖掘的基本步骤和流程解析请阐述数据挖掘的基本过程和步骤数据挖掘的基本步骤和流程对于挖掘出高质量、有价值的信息至关重要。 一、数据挖掘的基本步骤 1. 明确目标 在进行数据挖掘之前,首先要明确挖掘目标,即确定想要解决的问题和期望得到的结果。 明确目标有助于指导后续的数据处理和分析工作。 例子:某电商企业希望通过数据挖掘分析用户购买行为,以提高销售额。 https://blog.csdn.net/m0_67484548/article/details/142665300
5.什么是数据挖掘的流程?一步步带你掌握数据挖掘的完整过程在数据预处理之后,下一步是对数据进行探索性分析。这一步骤的目的是理解数据的结构和模式,为后续的模型建立提供指导。数据分析可以使用统计方法和可视化工具,例如通过绘制散点图、直方图等来发现数据中的趋势和异常。 5. 模型建立 模型建立是数据挖掘的核心步骤。在这一阶段,需要选择合适的算法和模型来从数据中提取知https://www.cda.cn/view/204893.html
6.什么是数据挖掘?——数据挖掘的过程,方法和实例数据挖掘是指从大量的数据中发现有价值的模式、规律和知识,以支持决策和预测分析的过程。通过数据挖掘,我们可以从海量数据中发现隐藏的关联性和趋势,为企业和组织提供宝贵的商业洞察力。下面将介绍数据挖掘的过程、方法和实例。 1. 数据挖掘的过程 数据挖掘的过程通常包括以下步骤:问题定义、数据采集、数据处理与清洗、https://www.jiandaoyun.com/fe/sjwjsjwjdg/
7.数据分析与挖掘11篇(全文)本文对Web挖掘的内容、挖掘的步骤、挖掘的技术等方面进行了分析和研究;另外本文对关联规则算法及其改进算法进行了分析探讨;把Apriori算法用于网站结构的优化中时,通过分析网站超链接结构及其关联规则,发现超链接是建立在两个网页之间的,提出发现网站频繁集只需发现网站2-频繁集即可。针对此结构特征,对真实数据集进行清理https://www.99xueshu.com/w/ikeyp687ycyz.html
8.数据挖掘概念与方法(精选八篇)本文首次将形式概念中“紧致依赖”理论应用在空间数据挖掘中, 在一个GIS实例中运用此理论找出关联规则, 并且对其在空间数据挖掘中的应用做出了一定的改进, 提出了基于Apri-ori剪枝的“紧致依赖”约减方法, 并证明了方法的正确性和优越性。运用此方法, 不仅可以无遗漏地找出所有满足支持度阈值并且置信度为1 的强关联https://www.360wenmi.com/f/cnkey6cf58u0.html
9.举个数据挖掘例子,让你秒懂数据挖掘数据挖掘是什么,今天跟大家展开谈谈,不仅谈谈数据挖掘是什么,通过举数据挖掘例子让大家更好的明白数据挖掘: 数据挖掘是什么: 数据挖掘(英语:数据挖掘),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。 https://www.fanruan.com/bw/dadgrhkk
10.数据挖掘算法案例三篇.docx数据挖掘算法案例三篇篇一:数据挖掘算法经典案例国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)20XX年12月评选出了数据挖掘领域的十大经典算法: C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCARTO不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以https://m.book118.com/html/2023/0609/5222341204010222.shtm
11.干货▏面向大数据的时空数据挖掘早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的https://czj.guiyang.gov.cn/new_site/zwgk_5908373/zszc_5908415/202205/t20220531_74514473.html
12.科学网—宋杰鲲SPSSClementine讲义实例Apriori、CARMA 和序列节点都可使用交易数据。 使用交易数据进行关联规则挖掘的步骤如下: 步骤1:创建Excel数据库,结构如下: 步骤2:打开SPSS Clementine软件,在“数据源”选项卡中,双击“Excel”节点,则在流工作区显示该节点,双击该节点,设置“数据”选项卡,导入上述文件,如图: https://blog.sciencenet.cn/blog-71538-682195.html
13.《数据挖掘技术》试读:第三章数据挖掘过程数据挖掘过程 第1章将数据挖掘的良性循环描述为一个业务流程,其中把数据挖掘划分为4个阶段: (1) 识别问题 (2) 将数据转换为信息 (3) 采取行动 (4) 度量结果 本章的重点转向把数据挖掘作为技术过程,把识别业务问题转变为将业务问题转化为数据挖掘问题。同时,第二个阶段——把数据转换为信息,将扩展到几个主题https://book.douban.com/reading/27167261/
14.数据挖掘的六大过程挑战:在减少数据量的同时,保留数据的代表性和信息量。 选择不当可能会导致数据挖掘结果的偏差和错误。 四、数据变换 定义:数据变换是将选定的数据转换为适合数据挖掘的形式的过程。 任务:提高数据的可挖掘性,增强数据的模式和特征。 数据变换包括数据规范化、数据离散化、数据聚合和数据生成等步骤。 https://www.ai-indeed.com/encyclopedia/10656.html
15.遗传算法简单实例遗传算法的特点有哪些腾讯云开发者社区遗传算法简单实例_遗传算法的特点有哪些 大家好,又见面了,我是你们的朋友全栈君。 遗传算法的手工模拟计算示例 为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各 个主要执行步骤。 例:求下述二元函数的最大值: (1) 个体编码遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2https://cloud.tencent.com/developer/article/2151139