数据挖掘模型和挖掘步骤技术方案

随着中国电信的改革重组,中国通信业取得了跨越式的发展,成为国民经济中发展速度最快的行业之一,中国通信业总规模现已在世界排名第一。与此同时,中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来,通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中,没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务,促进通信业务发展,从而为通信业提供决策支持服务,已经成为各个通信单位的当务之急。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别:分类时,我们事先选择一些属性作为分类标准,通信企业总是会将重要的、有影响力的属性作为分类的依据;而在实际应用当中,通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中,聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量,并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类:普通客户、价值客户和黄金客户,其中普通客户消费行为有较大的随机性,分布较广,规律难寻,比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量,把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP-DM(Cross-IndustryProcessforDataMining)过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务,将数据挖掘技术和实际应用紧密结合。CRISP-DM过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布,如图3-9所示。该过程的各个环节按顺序进行,但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题,先不考虑循环往复的探索和调优过程,直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下,就可以开始进行挖掘的工作了。

1.数据准备

数据准备过程如下:

(1)确定项目目标,制定挖掘计划。

(2)分析变量的获取。

(3)数据收集和获取。(4)数据集成。

依据CRISP-DM流程,第一要确定项目目标,之后制定挖掘计划。首先必须明确项目的商业目标,这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户,从客户行为的角度进行客户分类,以了解不同客户群的消费行为特征,为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据,并实现企业稳定现有客户量、提高客户增长量的战略目标"。

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1客户行为特征信息表

客户的通信行为

客户的需求特征类别

短消息使用次数

移动梦网使用次数

GPRS数据流量

方便性及信息实时性的需求

IP长途使用次数

优惠时段通话次数

套餐定制和使用次数

拨打10086次数

对资费的敏感程度

本地、长途、漫游呼叫时长

本地、长途、漫游呼叫次数

工作/休息时段、优惠/非优惠时段)

呼叫类型(主叫、被叫、呼叫转移)

对通话的多层次需求

服务种类

对个性化服务的需求程度

基于客户需求和上述行为特征信息表,定义了几组细分变量,d_代表时常,t_代表频率,见表3-2。在这里只列出通话形式和通话比例表。

表3-2细分变量表(简表)

通话形式

市话

d_local

t_local

省内长途

d_toll_InProvince

t_toll_InProvince

跨省长途

d_toll_BetweenProvince

t_toll_BetweenProvince

国际长途

d_toll_htm

t_toll_htm

通话比例

网内通话

d_mob_Ttl

t_mob_Ttl

联通通话

d_uni_Ttl

t_uni_Ttl

小灵通通话

d_phs_Ttl

t_phs_Ttl

d_fix_Ttl

t_fix_Ttl

2.数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

3.建立模型

在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升,不断优化的过程,在每一次聚类结束后,需要判断聚类结果在业务上是否有意义,其各群特征是否明显。如果结果不理想,则需要调整聚类模型,对模型进行优化,称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现,也可以通过多次运行,选择满意的结果。通常可以依据以下原则判断聚类结果是否理想:类间特征差异是否明显;群内特征是否相似;聚类结果是否易于管理及是否具有业务指导意义。

4.模型评估

通过上面的处理,就会得到一系列的分析结果和模式,它们是对目标问题多侧面的描述,这时需要对它们进行验证和评价,以得到合理的,完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视,此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤,可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行,这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘,并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化,还需要回到前面的步骤进行调整。

THE END
1.中国建设银行申请数据分析方法相关专利,能解决无法及时有效识别和发专利摘要显示,本申请提供了一种数据分析方法、装置、设备、介质及产品。属于网络安全技术领域,该方法包括:获取各机构报送的各机构的从业人员的行为数据;对行为数据进行数据清洗和数据格式转换后,存入空白数据集中,得到行为数据集;采用关联规则挖掘算法挖掘行为数据集中行为数据之间的关联性,得到目标关联规则;根据聚类分析算https://www.163.com/dy/article/JJN5Q8DK0519QIKK.html
2.生活中哪些数据挖掘的例子帆软数字化转型知识库数据挖掘是一种从大量数据中提取有价值信息的技术和过程,应用范围广泛,几乎渗透到生活的方方面面。以下是一些生活中常见的数据挖掘实例: 社交媒体分析:社交媒体平台如Facebook、Twitter和Instagram,利用数据挖掘技术分析用户行为和兴趣。通过分析用户的点赞、分享和评论,社交媒体可以为用户推荐相关内容,并帮助广告商精准投放https://www.fanruan.com/blog/article/600792/
3.数据挖掘32个经典案例数据挖掘的成功案例这里展示一个完整的数据挖掘实例,以供参考。数据挖掘是为了从数据中挖掘出有用的信息,提供决策依据,data driven decision making,而不是people driven或者boss driven。(减少拍脑袋有助于减少脱发,不信看你们公司大佬们都脱成啥样了) 首先,必须明确需求和目标,要知道自己想干什么和想达到什么。否则不就是瞎搞么,此https://blog.51cto.com/u_16213654/7549710
4.数据挖掘:R语言实战(黄文著)完整版PDF[57MB]电子书下载R 是一款极其优秀的统计分析和数据挖掘软件,《数据挖掘:R语言实战》侧重使用R 进行数据挖掘,重点讲述了R 的数据挖掘流程、算法包的使用及相关工具的应用,同时结合大量精选的数据挖掘实例对R 软件进行深入潜出和全面的介绍,以便读者能深刻理解R 的精髓并能快速、高效和灵活地掌握使用R 进行数据挖掘的技巧。 通过《https://www.jb51.net/books/592648.html
5.数据挖掘实例随笔分类浮生未stay统计学习方法概论(综合数据挖掘概论) 摘要:1.1 统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 1.2 监督学习 统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。本文只讨论监督学习。 关键词汇: 1、输入空间 input space(样本空间 sample space、属性空间https://www.cnblogs.com/fushengweixie/category/1142538.html
6.数据挖掘之实例学习数据挖掘前是否要标准化并举例数据挖掘之实例学习 在简书上看到一个简单的数据挖掘流程文章,很不错: 数据科学入门,使用 xgboost 初试 kaggle 这里面有用到网格搜索: 网格搜索简介 sklearn.model_selection.GridSearchCV 中文版网格搜索文档 Python超参数自动搜索模块GridSearchCV上手 关于xgboost的参数调优:https://blog.csdn.net/zhougb3/article/details/80298468
7.什么是数据挖掘?——数据挖掘的过程,方法和实例3. 数据挖掘的实例 数据挖掘的应用广泛,以下是一些常见的实例: a. 销售预测:通过挖掘历史销售数据,预测未来的销售趋势和需求,帮助企业制定合理的生产和销售计划。 b. 个性化推荐:通过挖掘用户的浏览和购买数据,为用户提供个性化的推荐信息,提高用户体验和购买满意度。 https://www.jiandaoyun.com/fe/sjwjsjwjdg/
8.数据挖掘的研究12篇(全文)偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。 二、数据挖掘在建设现代化高校档案馆中的应用https://www.99xueshu.com/w/ikeyvb4okol7.html
9.Python异常值的自动检测实战案例异常值检测(outlier)是一种数据挖掘过程,用于确定数据集中发现的异常值并确定其出现的详细信息。当前自动异常检测至关重要,因为大量数据无法手动标记异常值。自动异常检测具有广泛的应用,例如信用卡欺诈检测,系统健康监测,故障检测以及传感器网络中的事件检测系统等。今天我们就通https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247624055&idx=4&sn=db9cd01fd7dcd422257ef1d8fdf704b7&chksm=fa04ca442d9a4904d85af36e2db400c26aee36a2514ef3c002a2c23071d7b9e6ca6f34357217&scene=27
10.数据挖掘聚类分析实例技术标签:数据挖掘机器学习聚类 在之前,我们已经学过了四大类聚类分析及其典型算法。本文,我们将使用划分方法中的k-均值算法和层次聚类方法以一个实例进行完整的聚类分析演示。 1. 问题描述 例题: 为研究我国31个省、市、自治区2007年的城镇居民生活消费的规律,根据调查资料作区域消费类型划分。原始数据表1所示: 问https://www.pianshen.com/article/74271139769/
11.数据挖掘算法案例三篇.docx数据挖掘算法案例三篇篇一:数据挖掘算法经典案例国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)20XX年12月评选出了数据挖掘领域的十大经典算法: C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCARTO不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以https://m.book118.com/html/2023/0609/5222341204010222.shtm
12.带你入门Python数据挖掘与机器学习(附代码实例)本文结合代码实例待你上手python数据挖掘和机器学习技术。 本文包含了五个知识点:1.数据挖掘与机器学习技术简介 2. Python数据预处理实战 3. 常见分类算法介绍 4. 对鸢尾花进行分类案例实战 5. 分类算法的选择思路与技巧 一、数据挖掘与机器学习技术简介 https://cloud.tencent.com/developer/article/1146399
13.数据挖掘技术应用实例PPT课件经管文库(原现金交数据挖掘技术应用实例PPT课件 https://bbs.pinggu.org/thread-13292764-1-1.html
14.机器学习与数据挖掘logistic回归及手写识别实例的实现本文的实例为了简化,我只选出0和1的样本,这是个二分类问题。 输入格式:每个手写数字已经事先处理成32*32的二进制文本,存储为txt文件。 工程文件目录说明: logistic regression.py实现的功能:从train里面读取训练数据,然后用梯度上升算法训练出参数Θ,接着用参数Θ来预测test里面的测试样本,同时计算错误率。 https://www.open-open.com/lib/view/open1453126279605.html
15.《Python数据分析与挖掘实战》PPT.zip《Python数据分析与挖掘实战》的ppt 内容详细 讲解清楚 Python 数据分析与挖掘 ppt2019-06-27 上传大小:42.00MB 所需:42积分/C币 Python数据挖掘实战.zip 新手小白必看python数据挖掘及机器学习实战教程,实例代码全。 上传者:qq_42995065时间:2023-06-22 https://www.iteye.com/resource/miracleoa-11261551
16.干货▏面向大数据的时空数据挖掘早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的https://czj.guiyang.gov.cn/new_site/zwgk_5908373/zszc_5908415/202205/t20220531_74514473.html
17.R语言数据挖掘实践——Rattle模型评估案例实战现在通过一个综合实例,完整地讲述模型的评估与选择。 数据介绍 这个案例选择的数据来源于Rattle程序包中关于审计的"audit.csv"数据集,在data选项中,单击“Execute”,这时会弹出是否加载默认数据集的提示,点击“是”,然后在“Filename”中选择“audit.csv”文件,再单击“Execute”,这时就将审计的数据集加载进来了。 https://www.imooc.com/article/323120
18.CDA数据建模分析师(LEVEL21)我们精选的案例是目前企业真实场景下应用很广泛的场景,集合了互联网用户分析、精准营销、风险评估、BI设计与实施等领域的数据挖掘实例,对您从事真正的数据分析工作有针对性的指导与帮助。 目标: 深度学习R语言和数据挖掘的前沿算法 理解企业真实业务场景的建模流程https://www.avtechcn.com/software-development/programming-language/16525.html
19.一个企业级数据挖掘实战项目,教育数据挖掘上节中选用五种不同分类器,三种不同的数据重采样方法,结合ROC曲线及AUC得分情况来确定重采样方法对选择。本节可以理解为是上节的拓展。核心代码 # 实例化五种分类器模型dTree = DecisionTreeClassifier() logReg = LogisticRegression()knn = KNeighborsClassifier(n_neighbors=5)rF = RandomForestClassifhttp://baijiahao.baidu.com/s?id=1704435394922197391&wfr=spider&for=pc