数据挖掘模型和挖掘步骤技术方案

随着中国电信的改革重组,中国通信业取得了跨越式的发展,成为国民经济中发展速度最快的行业之一,中国通信业总规模现已在世界排名第一。与此同时,中国通信市场竞争也日趋激烈。通信运营商的经营观念逐渐从"技术质量第一"向"服务客户第一"转化。以前的营销模式已经无法满足客户的多样化、层次化、个性化的需求。长期以来,通信单位大量详尽的业务数据也只是被简单地应用在各种业务系统中,没有被更有效地开发利用。如何利用这些数据进一步拓宽通信业务,促进通信业务发展,从而为通信业提供决策支持服务,已经成为各个通信单位的当务之急。

客户细分模型和挖掘算法选择

构建客户分类模型需要用到第2章所介绍的一些技术。其中聚类技术就是其中之一。在前面的章节中我们曾了解到聚类和分类有着很大的区别:分类时,我们事先选择一些属性作为分类标准,通信企业总是会将重要的、有影响力的属性作为分类的依据;而在实际应用当中,通信企业事先根本不知道哪些属性会起到作用。而找到那些起关键作用的属性是聚类技术的任务之一。在通信客户分析中,聚类分析能够帮助我们发现特征迥异的不同客户群和对客户分类起关键作用的指标变量,并辅助运营商对各客户类别的特征进行深刻观察。通信客户从营销属性方面分为三类:普通客户、价值客户和黄金客户,其中普通客户消费行为有较大的随机性,分布较广,规律难寻,比较适于聚类分析。

本数据挖掘实例采用通话行为、数据业务使用情况等作为客户分类变量,把通信行为相似的人群聚为一组。数据挖掘方法论选用CRISP-DM(Cross-IndustryProcessforDataMining)过程模型。即交叉行业数据挖掘过程标准。它从数据挖掘技术应用的角度来划分挖掘任务,将数据挖掘技术和实际应用紧密结合。CRISP-DM过程模型的主要步骤有商业理解、数据理解、数据准备、建立模型、数据挖掘、评价和实施以及结果发布,如图3-9所示。该过程的各个环节按顺序进行,但需要不断地循环往复进行数据探索和模型的调优。这里为了简化说明问题,先不考虑循环往复的探索和调优过程,直接顺序考察各个环节。

数据挖掘模型和挖掘步骤

在各种硬件条件和软件条件都具备的情况下,就可以开始进行挖掘的工作了。

1.数据准备

数据准备过程如下:

(1)确定项目目标,制定挖掘计划。

(2)分析变量的获取。

(3)数据收集和获取。(4)数据集成。

依据CRISP-DM流程,第一要确定项目目标,之后制定挖掘计划。首先必须明确项目的商业目标,这个目标应该是适于用选取的聚类分析方法来达到的。所定义的客户细分的商业目标是"对某地方数十万普通客户,从客户行为的角度进行客户分类,以了解不同客户群的消费行为特征,为发展新业务、原有客户挽留、对其他通信公司用户争夺的针对性策略的制订提供依据,并实现企业稳定现有客户量、提高客户增长量的战略目标"。

客户的消费行为和需求通过调查问卷以及访谈的方式来实现。

客户的通信行为以及需求特征类别见表3-1。

表3-1客户行为特征信息表

客户的通信行为

客户的需求特征类别

短消息使用次数

移动梦网使用次数

GPRS数据流量

方便性及信息实时性的需求

IP长途使用次数

优惠时段通话次数

套餐定制和使用次数

拨打10086次数

对资费的敏感程度

本地、长途、漫游呼叫时长

本地、长途、漫游呼叫次数

工作/休息时段、优惠/非优惠时段)

呼叫类型(主叫、被叫、呼叫转移)

对通话的多层次需求

服务种类

对个性化服务的需求程度

基于客户需求和上述行为特征信息表,定义了几组细分变量,d_代表时常,t_代表频率,见表3-2。在这里只列出通话形式和通话比例表。

表3-2细分变量表(简表)

通话形式

市话

d_local

t_local

省内长途

d_toll_InProvince

t_toll_InProvince

跨省长途

d_toll_BetweenProvince

t_toll_BetweenProvince

国际长途

d_toll_htm

t_toll_htm

通话比例

网内通话

d_mob_Ttl

t_mob_Ttl

联通通话

d_uni_Ttl

t_uni_Ttl

小灵通通话

d_phs_Ttl

t_phs_Ttl

d_fix_Ttl

t_fix_Ttl

2.数据准备

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。数据准备工作的流程如图3-11所示。

3.建立模型

在生成最终的数据集后,就可以在此基础上建立模型来进行聚类分析了。建立模型阶段主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。在明确建模技术和算法后需要确定模型参数和输入变量。模型参数包括类的个数和最大迭代步数等。

不同的技术方案产生的模型结果有很大不同,而且模型结果的可理解性也存在较大差异。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

建立模型是一个螺旋上升,不断优化的过程,在每一次聚类结束后,需要判断聚类结果在业务上是否有意义,其各群特征是否明显。如果结果不理想,则需要调整聚类模型,对模型进行优化,称之为聚类优化。聚类优化可通过调整聚类个数及调整聚类变量输入来实现,也可以通过多次运行,选择满意的结果。通常可以依据以下原则判断聚类结果是否理想:类间特征差异是否明显;群内特征是否相似;聚类结果是否易于管理及是否具有业务指导意义。

4.模型评估

通过上面的处理,就会得到一系列的分析结果和模式,它们是对目标问题多侧面的描述,这时需要对它们进行验证和评价,以得到合理的,完备的决策信息。对产生的模型结果需要进行对比验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试和验证,通过对几种模型的综合比较,产生最后的优化模型。

模型评估阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因而被忽视,此阶段关键目的是决定是否还存在一些重要的商业问题仍未得到充分的考虑。验证模型是处理过程中的关键步骤,可以确定是否成功地进行了前面的步骤。模型的验证需要利用未参与建模的数据进行,这样才能得到比较准确的结果。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新的数据进行检验。检验的方法是对已知客户状态的数据利用模型进行挖掘,并将挖掘结果与实际情况进行比较。在此步骤中若发现模型不够优化,还需要回到前面的步骤进行调整。

THE END
1.大数据与分析:数据挖掘概念及流程数据挖掘是一个从大量数据中提取有价值信息或模式的过程,它依赖于统计学、机器学习、数据库技术和人工智能等多个领域的知识和技术。以下是数据挖掘的概念及其流程的详细解释: 一、数据挖掘的概念 数据挖掘(Data Mining)是指通过特定的计算机算法对大量的数据进行自动分析,以揭示数据中的隐藏模式、未知的相关性和其他有https://blog.csdn.net/NSAcbba/article/details/143417836
2.数据挖掘6个基本流程数据挖掘是一种从海量数据中提取有用信息的技术,它是一种交叉学科,融合了统计学、计算机科学、机器学习等领域的知识。数据挖掘的基本流程包括数据预处理、特征选择、模型选择与评价、模型训练、模型优化和结果解释等六个步骤。下面,我们将详细介绍每个步骤的具体内容。 1. 数据预处理 数据预处理是数据挖掘的第一步,它https://wenku.baidu.com/view/b7ed92a4d25abe23482fb4daa58da0116c171fb8.html
3.数据挖掘的六大过程数据变换包括数据规范化、数据离散化、数据聚合和数据生成等步骤。 数据规范化是将数据转换为相同的尺度和范围,消除量纲的影响;数据离散化是将连续数据转换为离散数据,便于数据挖掘算法处理;数据聚合是将低层次的数据聚合为高层次的数据,减少数据维度;数据生成是通过数据生成技术生成新的数据特征,增强数据的模式和特征。https://www.ai-indeed.com/encyclopedia/10656.html
4.详解数据挖掘的技术工具与用例详解数据挖掘的技术、工具与用例 本文将和您讨论数据挖掘的基本概念、基本步骤、主要技术、优势、工具、以及典型用例。 【51CTO.com快译】近十年来,随着计算机处理能力和速度的显著提高,我们逐渐能够从繁琐且耗时的手动式数据分析,转变成为快速便捷的自动化方法。面对被收集到的数据集日趋增长,能够发现的信息相关性也日益https://www.51cto.com/article/663276.html
5.7种常用的数据挖掘技术分享开源地理空间基金会中文分会开放摘要: 随着信息领域的进步,技术在各个领域产生了大量数据库。因此更加需要存储和操作重要数据,以便以后用于决策和改进业务活动。本文我们将分享7种数据挖掘技术,体验在数据化运营商业实践中的风采。 什么是数据挖掘? 数据挖掘是从海量数据中提取有用信息和模式的过程。它包括 https://www.osgeo.cn/post/14c56
6.什么是数据挖掘?为什么它如此重要?该策略有助于发现一段时间内数据中的行为质量或模式。换句话说,数据根据收集数据的时间范围内发生的事件顺序进行分类。商店可以利用顺序模式策略来发现通常在一年中的不同时间一起购买的商品。 预测 企业通常使用预测方法来支持新的业务计划。这种数据挖掘技术有助于检查历史数据,以揭示可用于预测市场未来的趋势。 https://ai.qianjia.com/html/2023-03/27_400072.html
7.数据挖掘的步骤包括什么需要注意的是,数据挖掘是一个迭代的过程,每个步骤都可能需要根据实际情况进行调整和优化。此外,随着技术的发展和数据的不断增长,数据挖掘的方法和技术也在不断演进和改进。因此,在实际应用中,需要根据具体情况灵活运用各种技术和方法来满足不同的需求。 数据挖掘的步骤包括什么?数据挖掘是一种强大的工具,可以从海量数据https://www.pxwy.cn/news-id-81213.html
8.空间数据挖掘认识及其思考AET具体来说,空间数据挖掘就是在海量空间数据集中,结合确定集、模糊集、仿生学等理论,利用人工智能、模式识别等科学技术,提取出令人相信的、潜在有用的知识,发现空间数据集背后隐藏的规律、联系,为空间决策提供理论技术上的依据[1]。 1 空间数据挖掘的一般步骤http://www.chinaaet.com/article/3000015273
9.数据分析与挖掘11篇(全文)近年来,数据挖掘技术经过不断发展,已经成为一个涉及多个学科的交叉型综合学科。通常而言,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,要在扩展算法上进行了研究,包括复合关联规则算法、改进的序列发现算法等。 2. Web数据挖掘的概念 https://www.99xueshu.com/w/ikeyp687ycyz.html
10.高效实施数据挖掘的方法和步骤yuanye1014(2)该工具是否在商业问题和数据挖掘技术之间提供了一个桥梁,是如何提供的? 使用该工具中,各操作步骤是否可以被清晰地映射到数据挖掘的商业需求上?该工具是否向商业用户清晰地表述了数据挖掘概念?该工具如何与项目管理或其它计划工具所整合?是否需要编写额外地应用程序来实现数据挖掘技术与商业理解之间的沟通? http://blog.chinaunix.net/uid-64814-id-2690182.html
11.数据挖掘概念与方法(精选八篇)空间数据挖掘[1 - 3]是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系, 并发现其中有用的特征和模式的理论、方法和技术。它是多种技术和学科交叉的新领域, 综合了机器学习、数据库技术、模式识别、统计、地理信息系统等领域的有关技术。针对空间数据的特点, 空间数据挖掘可发现空间分布规律、空间关联https://www.360wenmi.com/f/cnkey6cf58u0.html
12.数据挖掘的七个步骤理想股票技术论坛数据挖掘的七个步骤包括数据预处理、数据清洗、数据转换、数据建模、模型评估与优化以及数据可视化展示。这些步骤是数据挖掘过程中必不可少的环节,通过对数据的深入挖掘和分析,可以提取出有价值的信息和规律,为决策提供支持。 ,理想股票技术论坛https://www.55188.com/tag-8849372.html
13.数据挖掘方法论具体实施步骤01、数据挖掘方法论具体实施步骤 第一步:业务理解 指从业务角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。 第二步:数据理解 指从数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子https://www.jianshu.com/p/03e2b16e3403
14.数据挖掘如何入门2、建立数据挖掘库; 3、分析数据; 4、准备数据; 5、建立模型; 6、评价模型; 7、实施。数据挖掘是通过分析每个数据,从大量数据中寻找其中的规律的技术。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 一、挖掘步骤 https://www.linkflowtech.com/news/228
15.数据挖掘的流程包含哪些步骤?特征选择:在数据挖掘中,特征选择是非常重要的步骤。通过评估和选择最相关的特征,可以提高模型的准确性和效率。常用的特征选择方法包括统计分析、相关性分析、信息增益等。 特征转换:有时,原始数据集中的特征可能需要进行转换,以便更好地适应模型的要求。常见的特征转换技术包括标准化、归一化、离散化、主成分分析等。 https://www.cda.cn/view/202981.html
16.4个步骤,构建一个有指导的数据挖掘模型腾讯云开发者社区有指导数据挖掘往往作为一个技术问题,即找到一个模型以解释一组输入变量与目标变量的关系。这往往是数据挖掘的中心,但如果目标变量没有正确的定义以及没有确定适当的输入变量。反过来,这些任务又取决于对要解决的业务问题的理解程度。没有正确的理解业务问题就没办法把数据转化为挖掘任务。在技术开始之前,必须认识两个问https://cloud.tencent.com/developer/article/1041871
17.数据挖掘的四种基本方法数据挖掘的步骤 解读需求要考虑专家、工作人员的意见;数据可从业务层的数据库中提取、抽样;在计算机分析技术下,可能给出不同模型, 企业需要选择最优模型;数据挖掘只是辅助的决策工具, 如何解读模型也是重要的任务;根据挖掘结果进行商业部署, 如零售商根据客户习惯决定进货量、进货时间、具体选址等。https://www.dongao.com/cma/zy/202406204447292.html
18.数据挖掘由哪些步骤组成帆软数字化转型知识库四、数据挖掘 数据挖掘是整个过程的核心步骤,旨在从数据中发现有价值的模式和知识。数据挖掘的方法和技术多种多样,包括分类、聚类、关联规则、回归分析等。分类是将数据分成不同的类别,可以使用决策树、支持向量机、神经网络等算法。聚类是将相似的数据点聚集在一起,可以使用K-means、层次聚类、DBSCAN等算法。关联规则https://www.fanruan.com/blog/article/576449/