数据挖掘模型和挖掘步骤技术方案

随着中国电信的改革重组,中国通信业取得了跨越式的发展,成为国民经济中发展速度最快的行业之一,中国通信业总规模现已在世界排名第一。与此同时,中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来,通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中,没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务,促进通信业务发展,从而为通信业提供决策支持服务,已经成为各个通信单位的当务之急。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别:分类时,我们事先选择一些属性作为分类标准,通信企业总是会将重要的、有影响力的属性作为分类的依据;而在实际应用当中,通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中,聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量,并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类:普通客户、价值客户和黄金客户,其中普通客户消费行为有较大的随机性,分布较广,规律难寻,比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量,把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP-DM(Cross-IndustryProcessforDataMining)过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务,将数据挖掘技术和实际应用紧密结合。CRISP-DM过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布,如图3-9所示。该过程的各个环节按顺序进行,但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题,先不考虑循环往复的探索和调优过程,直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下,就可以开始进行挖掘的工作了。

1.数据准备

数据准备过程如下:

(1)确定项目目标,制定挖掘计划。

(2)分析变量的获取。

(3)数据收集和获取。(4)数据集成。

依据CRISP-DM流程,第一要确定项目目标,之后制定挖掘计划。首先必须明确项目的商业目标,这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户,从客户行为的角度进行客户分类,以了解不同客户群的消费行为特征,为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据,并实现企业稳定现有客户量、提高客户增长量的战略目标"。

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1客户行为特征信息表

客户的通信行为

客户的需求特征类别

短消息使用次数

移动梦网使用次数

GPRS数据流量

方便性及信息实时性的需求

IP长途使用次数

优惠时段通话次数

套餐定制和使用次数

拨打10086次数

对资费的敏感程度

本地、长途、漫游呼叫时长

本地、长途、漫游呼叫次数

工作/休息时段、优惠/非优惠时段)

呼叫类型(主叫、被叫、呼叫转移)

对通话的多层次需求

服务种类

对个性化服务的需求程度

基于客户需求和上述行为特征信息表,定义了几组细分变量,d_代表时常,t_代表频率,见表3-2。在这里只列出通话形式和通话比例表。

表3-2细分变量表(简表)

通话形式

市话

d_local

t_local

省内长途

d_toll_InProvince

t_toll_InProvince

跨省长途

d_toll_BetweenProvince

t_toll_BetweenProvince

国际长途

d_toll_htm

t_toll_htm

通话比例

网内通话

d_mob_Ttl

t_mob_Ttl

联通通话

d_uni_Ttl

t_uni_Ttl

小灵通通话

d_phs_Ttl

t_phs_Ttl

d_fix_Ttl

t_fix_Ttl

2.数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

3.建立模型

在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升,不断优化的过程,在每一次聚类结束后,需要判断聚类结果在业务上是否有意义,其各群特征是否明显。如果结果不理想,则需要调整聚类模型,对模型进行优化,称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现,也可以通过多次运行,选择满意的结果。通常可以依据以下原则判断聚类结果是否理想:类间特征差异是否明显;群内特征是否相似;聚类结果是否易于管理及是否具有业务指导意义。

4.模型评估

通过上面的处理,就会得到一系列的分析结果和模式,它们是对目标问题多侧面的描述,这时需要对它们进行验证和评价,以得到合理的,完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视,此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤,可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行,这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘,并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化,还需要回到前面的步骤进行调整。

THE END
1.通俗易懂,数据挖掘的过程是什么?数据挖掘的流程有许多优美的提供推荐的方法,它们在不同的情况下各有优劣,因此,整个数据挖掘过程是一门艺术,很大程度由分析师的技能所决定,而不完全由特定的技术或基本模块所左右,这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得。 02 数据预处理阶段 数据预处理阶段也许是数据挖掘过程中最关键的一个阶段,然而,这个https://blog.csdn.net/maiya_yayaya/article/details/131590669
2.数据挖掘的六大过程任务:处理原始数据中的缺失值、噪声和不一致性。 缺失值可以通过删除、填补和插值等方法处理;噪声数据可以通过平滑、聚类等技术进行处理;不一致性问题则需要通过数据转换和规范化来解决。 目标:提高数据质量,为后续的数据挖掘过程提供可靠的数据基础。 二、数据集成 定义:数据集成是将来自不同数据源的数据进行整合的过https://www.ai-indeed.com/encyclopedia/10656.html
3.从0到1详解数据挖掘过程有许多优美的提供推荐的方法,它们在不同的情况下各有优劣,因此,整个数据挖掘过程是一门艺术,很大程度由分析师的技能所决定,而不完全由特定的技术或基本模块所左右,这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得。 02 数据预处理阶段 数据预处理阶段也许是数据挖掘过程中最关键的一个阶段,然而,这个https://zhuanlan.zhihu.com/p/678860506
4.数据挖掘七种常用的方法汇总腾讯云开发者社区数据挖掘七种常用的方法汇总 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可https://cloud.tencent.com/developer/article/1892597
5.什么是数据挖掘?——数据挖掘的过程,方法和实例数据挖掘是指从大量的数据中发现有价值的模式、规律和知识,以支持决策和预测分析的过程。通过数据挖掘,我们可以从海量数据中发现隐藏的关联性和趋势,为企业和组织提供宝贵的商业洞察力。下面将介绍数据挖掘的过程、方法和实例。 1. 数据挖掘的过程 数据挖掘的过程通常包括以下步骤:问题定义、数据采集、数据处理与清洗、https://www.jiandaoyun.com/fe/sjwjsjwjdg/
6.数据挖掘标准流程数据挖掘6个基本流程1.数据挖掘的过程分成 6 个步骤。 1.商业理解: 从商业的角度理解项目需求,再对数据挖掘的目标进行定义。 2.数据理解: 收集部分数据,对数据进行数据描述、数据质量验证等。有利于对收集的数据有个初步的认知。 3.数据准备: 收集数据,对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。 https://blog.51cto.com/u_16213634/6993714
7.python数据挖掘算法的过程详解python1、首先简述数据挖掘的过程 第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二步: 数据预处理 数据极可能有噪音,不完整等缺陷,需要对数据进行数据标准化,方法有min-max 标准化,z-score 标准化,修正的标准z-score。 第三步:特征值数据转换 将数据提取特征使这些数据符合特定数https://www.jb51.net/article/238548.htm
8.数据挖掘研究(精选十篇)采取传统的统计方法主要有抽样技术,也就是采取相应的策略对数据进行合理的抽样。多元化统计和统计预测方法;二是可视化技术,可视化技术是数据挖掘技术的热点,它是采取可视化技术与数据挖掘过程的结合,以直观的图形等使人们更好地进行数据挖掘技术;三是决策树。决策树需要对数据库进行几遍的扫描之后,才能完成,因此其在具体https://www.360wenmi.com/f/cnkey7ouwjk5.html
9.商战数据挖掘:你需要了解的数据科学与分析思维例如:“客户是聚集成自然组群还是被划分成了不同部分?”聚类在初步的领域探索中非常有用,它可以找出可能存在的自然组群,而这些群组会给下一步的数据挖掘任务和方法提供线索。聚类还能作为信息输入到某些决策过程中,以帮助回答“应该提供或开发哪些产品”“客户服务团队(或销售团队)应如何构建”等问题。第 6 章将https://www.ituring.com.cn/book/tupubarticle/28952
10.数据挖掘的六个步骤有哪些帆软数字化转型知识库在此过程中,团队可能会使用问卷调查、访谈等方法收集信息,以确保他们了解所有利益相关者的期望。例如,商业团队可能希望通过数据挖掘来提高客户满意度,而市场团队则可能关注于识别潜在客户群体。 数据收集与集成 明确问题后,接下来是数据的收集与集成。这一过程涉及从多个来源获取数据,包括内部数据库、外部数据源、网络爬虫https://www.fanruan.com/blog/article/594251/
11.数据挖掘的步骤包括什么在数据预处理后,可以通过可视化、统计等方法对数据进行探索性分析,以初步了解数据的分布和特征。这有助于确定后续分析的方向和重点。 4、特征工程 根据数据探索的结果,选择与待挖掘主题密切相关的特征,并构造新的特征以更有效地表示数据。特征工程是数据挖掘过程中非常关键的一步,直接影响模型的性能和效果。 https://www.pxwy.cn/news-id-81213.html
12.数据分析与挖掘11篇(全文)Web使用记录挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘;Web使用挖掘过程,简单地讲分四个阶段:源数据的收集、数据的预处理、数据挖掘和对挖掘出来的模式进行分析,如图2示。 5. Web数据挖掘技术实现 Web数据挖掘中常用的技术通常可以分为两类:一类是建立一种以机器学习为主的人工智能模型,采用的方法有https://www.99xueshu.com/w/ikeyp687ycyz.html
13.数据挖掘论文2.EineSet是由SGI公司开发的,它也提供了多种数据挖掘方法,包括关联分析和分类以及高级统计和可视化工具。特色是它具有的强大的图形工具,包括规则可视化工具、树可视化工具、地图可视化工具和多维数据分散可视化工具,它们用于实现数据和数据挖掘结果的可视化。 3.Clementine是由ISL公司开发的,它为终端用户和开发者提供提供了https://www.unjs.com/lunwen/f/20220924130749_5650839.html
14.天津大学首批10门研究生课程登陆“学堂在线”平台课程介绍:主要介绍数据分析与数据挖掘的基本概念和方法。使学习者熟悉数据挖掘的过程,掌握数据分析与数据挖掘过程中常用的算法模型及数据处理方式,为相关研究打下数据处理基础。 课程链接:https://next.xuetangx.com/course/tjnu08091002372/1497582 光电检测技术 http://www.tju.edu.cn/info/1026/2531.htm
15.数据仓库与数据挖掘技术—数据挖掘分类及过程模型孤立点分析是分类预测和聚类分析的副产品,孤立点是指与数据的一般行为或模型不一致的那些对象。一般情况下很多的数据挖掘方法会把孤立点作为噪声或异常数据,将其忽略或删除。但在网络入侵检测,信用卡欺骗检测等实际应用中,这些数据是十分有参考价值的。主要的检测技术有基于统计的孤立点检测,基于距离的孤立点检测,基于https://www.jianshu.com/p/da25173289b9
16.TCCT通讯Newsletter2017No.01高炉炼铁过程多元铁水质量非线性子空间建模及应用 自动化学报, 2016 Vol. 42 (11): 1664-1679 Abstract | PDF 何德峰 约束非线性系统稳定经济模型预测控制 自动化学报, 2016 Vol. 42 (11): 1680-1690 Abstract | PDF 冯建周, 宋沙沙, 孔令富 物联网语义关联和决策方法的研究 自动化学报, 2016 Vol. 42 (https://tcct.amss.ac.cn/newsletter/2017/201701/journal.html
17.数据挖掘的流程包含哪些步骤?数据挖掘是从大量数据中挖掘出有用的信息和模式的过程。它涉及多个步骤,从数据收集到模型评估。以下是数据挖掘的常见流程步骤:理解业务目标:在进行数据挖掘之前,需要明确业务目标和问题。确定要解决的问题以及所需的结果有助于指导整个流程。数据收集:在 https://www.cda.cn/view/202981.html