数据挖掘应用之:电信业离网预警建模过程开心玩数据

离网分析是为了解决由于客户离网导致市场份额减少、收入降低的问题。目标是提高挽留成功率、降低离网率、减少由于客户离网带来的收入损失。因此需要对客户按照流失倾向评分,产生最可能流失客户的名单,进一步对这些目标客户进行细分,得到不同离网客户的特征,并以此为基础采取针对性的措施。

客户离网分析模型的过程大致分为两个过程,其一是离网分析,其逻辑处理过程如下:

其二是目标客户细分,离网分析可以获得高流失的客户,再与客户价值结合就可以获得高流失、高价值的目标客户,但是这些客户的特征可能不同,有必要对其更详细的了解,以便对不同的客户采取不同的挽留措施,为此,需要对他们进行分群发现其特征,其逻辑处理过程如下:

图2客户细分

这样就可以获得离网客户的不同群体,从而可以有针对性的采取措施。

2.2.运行环境

本系统具有很强的集成能力,能很好的适应各种平台的运行环境。

UNICA平台支持:客户端-windows、服务端-unix

自动评分过程支持:windows、unix

前端展现:windowsIe

3.总体设计

3.1.业务分析

客户离网分析模型项目需要三个方面的工作:(1)数据预处理部分:包括数据范围的确定、选择、抽取和预处理等;(2)建模、评估和评分部分:使用UNICA建立离网分析模型,使用自动评估过程对模型进行评估、提供评估结果,使用自动评分过程对将来某个月份的客户进行离网倾向打分;(3)前台展现部分:输出查全率、命中率、提升倍数的趋势图,误分矩阵,客户关心的目标用户群的提取等。逻辑操作如下:

3.2整体框架

离网分析模型的整体架构图(参见下图):

图3系统架构图

下面对各个过程的操作进行详细的说明,并对有关的结果进行解释。

3.3数据准备

参考《客户离网分析模型数据准备》文档

3.4建模、评估和评分

3.4.1建模

使用UNICA工具进行建模,选择多种算法,并通过UNICA输出的结果来判断模型的效果,直到得到满意的结果为止。具体描述如下:

3.3.1.1环境配置

UNICA工具是C/S模式,运行环境是:Server端安装在unix环境下,Client端安装在windows环境。

服务器配置界面请参考下图一。

有关的参数保持默认值即可,如果需要修改请参考UNICA有关的帮助文档。

算法的执行即可以在Client端执行,也可以在Server端执行:如果数据库是通过Client连接,则UNICA自动在客户端执行算法,如果数据库是通过Server端连接的,并且Server已经启动,则UNICA自动在Server端执行算法。

3.3.1.2模型选择

启动UNICA客户端,首先是模型类型选择的界面,选择responsemodeler,进入responsemodeler主界面,如果不选,则默认也进入此界面。

图一服务器配置

图二模型选择

3.3.1.3数据导入

进入UNICA客户端主界面后,单击IMPORT按钮,启动了数据导入过程,UNICA提供了多种访问数据库的方式。见下图三

Location选项:如果选择Server,则数据的读取、算法的执行等是由Server端执行,Client端只是展现有关的结果;如果选择Local,则数据的读取、算法的执行等是在Client执行。由于客户端的服务器性能比较高,所以选择Local即可。

数据源有四种:(1)表示从数据文件读取数据;(2)是访问DB2客户端访问DB2数据库;(3)是通过ODBC访问数据库;(4)是通过ORACLE客户端访问数据库。(有关的配置请参考相应的数据库资料,下面以通过ORACLE客户端连接ORACLE数据库为例)。

图三数据库连接配置

单击Next进入数据表的选择界面(见下图五),数据表选择有两种方式:(1)可以从table指向的下拉列表框中选择,但是如果表比较多,选择期望的表也不方便,如果预先知道表名称,则可以采取方法(2)点击customSQL,在弹出的窗口中输入SQL语句选择符合条件数据,同时这里提供了SQL的语句的有关函数和运算符。

图五数据表选择

3.3.1.4数据预处理

选择建模数据表后,执行Next进入数据抽取选择,如果数据量比较大,则可以抽取其中的一部分。由于我们在数据准备的过程已经确定了合适的数据量,所以这里选择UseAllRows即可(见图六)。

选择NEXT后,UNICA就执行读取数据的过程,数据读取结束后,结果集输出到窗口中(见图七),用户可以查看各个变量的值,并进行数据类型的指定、数据清洗、生成新变量等工作,由于这样的工作我们在数据准备过程已经进行了处理,这里可以不作改变,直接执行Next。

由于这些工作,我们在前期已经做了适当的处理,这里也可以不进行处理,直接执行NEXT进入算法选择过程。

图六数据抽样

3.3.1.5建模过程

对数据进行预处理后,单击MODLING按钮就开始了建模过程。

首先进入响应字段的选择,也可以生成新的字段作为响应字段,这里我们已经预先约定为CHURN,所以直接执行Next即可(见图八)。

单击Next后进入建模字段的选择(见图九),一般可以选择除了唯一标识的字段(比如CUSTID)之外的所有字段,当然如果确认某些字段与当前分析的问题没有关系可以不选择该字段。具体对本次离网模型的分析,对于字段某些字段(CUSTID、JOIN_DATE、USER_TYPE、INDUSTRY_TYPE、BIRTHDAY、SEX、EXIST_TIME、PAY_METHOD、CUST_AREA、CUST_VALUE、CUST_SEGEMENT,由于或者值不全、或者客户标识、或者预留等)建模时不必选择。

选择建模字段后,单击Next进入字段类型的指定界面,UNICA提供了多种类型的字段,但是一般不必修改,UNICA会根据字段的取值自动处理,直接执行NEXT进入算法的选择。

图八响应字段的选择

图九属性字段的选择

图十算法级别选择

模型级别大致有一下几个:

(1)QuickModel:该选项默认只有快速逻辑回归算法,它可以最快的速度得到建模结果,所以如果想尽快的看到结果,则选择该选项,但是由于其算法较少,所以很可能不能获得好的效果;

(2)IntermediateModel:该级别为UNICA设定的中等复杂程度的算法集合,默认包括了多种算法(线性回归、逻辑回归、神经网络、贝叶斯、CHAID、CART等),UNICA对每种算法都运行一次,然后比较各种算法的效果,为用户输出较好的几个模型;

(4)NoModel:不包括任何模型,显然,要得到模型结果,不应该选择此项;

(5)CustomModel:客户定制模型,如果用户对各种算法比较了解,知道当前的任务更适合使用那种算法,可以自己选择,一般不推荐;

另外,UNICA在模型详细信息中还提供了一些参数设置,一般不必对其修改,如果修改,请参考UNICA帮助进行修改。

3.3.1.6结果的解释

UNICA建模完成后,提供了结果的多种报告,各种报告的详细意义请参考UNICA的有关资料,下面对几个报告简要的说明,更多的报告请参考UNICA提供的有关资料,或者咨询UNICA有关技术人员:

(1)ModelingPerformanceReport:模型性能

该报告以图表的形式来直观的反映了模型的优劣:红色的曲线越陡,说明模型效果越好,尤其是曲线的前半部分。比如,下图10%处模型效果提高了近三倍,20%处模型效果提高了2倍。

(2)VariableSummaryReport:变量概要报告

(3)VariableNumericalReport:变量数据报告

(4)ModelingSensitivitySummary:变量重要性总结

该报告给出了模型中变量重要性程度的度量,是用户判断客户离网因素很好的参考指标。

3.3.1.7模型输出

由于UNICA建立模型后,并没有把模型保存起来,需要执行UNICA的评估过程把模型保存为C模型文件,以便自动评估和自动评分的过程调用。

得到满意的模型之后,单击Scoring按钮,执行UNICA评估过程(见图),选择保存的目标

3.3.2自动评估

建立模型后,可以用建模数据月份后的某个月份(可以是建模的月份数据),比如9月份建立的模型,可以用9、10等月份的数据进行评估。

通过命令行(EvalMiner.exeRecord_NoMode_IDFileNameyyyymm阀值)来执行自动评估过程。

这里有五个参数

(1)Record_No:任务调动的ID号,默认为0;

(2)Mode_ID:模型ID,模型维护时设定的;

(3)FileName:模型文件名,包括全路径;

(4)Yyyymm:评估月份的数据;

(5)阀值:是输出误分矩阵时使用的分值,一般要求0.5<阀值<1。

执行自动评估过程后,评估结果输出到表Mode_Eval_Chart和表Mode_Eval_Conf中,前台可以通过IE展现给用户。

如果评估结果不够理想,则需要重新进行建模和评估。

3.5.3自动评分

经过建模、评估得到满意的模型后,就可以用该模型对将来某个月份的客户进行离网倾向打分,比如以11数据作为自动评分过程的输入。

通过命令行(EvalMiner.exeRecord_NoFileNameyyyymm)来执行自动评分过程。

这里有三个参数,参数的意义与自动评估过程基本一样。

执行自动评分过程后,评分结果输出到表Mode_Score_Result_yyyymm中,前台可以通过IE展现给用户。前台可以根据离网分值、客户价值从评分结果表中选择出高流失、高价值的客户,结果保存到HLost_HValue_Cust中。

3.5客户细分

以表HLost_HValue_Cust作为输入,使用UNICA分段模型,对其进行细分,并把细分结果回写到该表相应的字段中,可以通过UNICA查看不同群体客户的各种属性分布情况。

与建模过程类似的过程对目标客户建立分段模型,只是有些步骤和结果报告有所区别,具体如下:

(1)模型选择Segmenter;

(2)选择数据表HLost_HValue_Cust作为分段模型的数据;

(3)算法选择

(4)段数设定:如果没有必要,不必修改,保持默认值即可。

(5)结果输出:对每个段都有相应的报告输出,而且报告内容可以导出为文件保存起来。与响应模型类似,也提供了多种形式的报告。其中比较重要的是segmentinsights报告,参考下面的几个图。

图11多种报告

图13属性重要性

3.6前台展现

3.6.1模型管理

根据各系统展现及保存方式,这里忽略。

3.6.2模型结果展现

命中率、查全率、提升图等趋势图:

命中率

命中率示意图

X轴:按离网倾向评分从大到小排序后的客户占目标客户人数的百分比;

Y轴:前x%的客户中被准确预测为离网的客户占这批客户的百分比,即命中率;

在不用模型的情况下(蓝线),任意给出x%的客户名单,其命中率为常数,等于离网率(5.29%)。

在使用模型的情况下(红线),给出离网倾向最高的前x%的客户名单,其命中率明显高于不用模型的命中率。

查全率

查全率示意图

Y轴:前x%的客户中被准确预测为离网的客户占目标客户中离网总人数的百分比,即查全率

在不用模型的情况下(蓝线),任意给出x%的客户名单,其查全率等于x%。

在使用模型的情况下(红线),给出离网倾向最高的前x%的客户名单,其查全率在x<16.66的范围内呈线性增长,增长速度明显高于不用模型时的结果。

LIFT

LIFT示意图

X轴:按离网倾向评分从大到小排序后的离网客户占目标客户中离网总人数的百分比;

Y轴:当前查全率下命中率的提升倍数

在不用模型的情况下(蓝线),任意给出x%的客户名单,其查全率等于x%,因此LIFT为常数,等于1。

在使用模型的情况下(红线),给出离网倾向最高的前x%的客户名单,当x<0.26时LIFT值在8.57到11.33之间,即使用模型所抓到的离网客户数是不用模型时的8-11倍;当x<4.28时,LIFT值不低于6.69,即使用模型所抓到的离网客户数是不用模型时的6.69倍以上。

3.6.3误分矩阵

设定阀值的误分矩阵,选择某个模型、评估月份的数据、分值大小,通过自动评分过程可以计算出误分矩阵的各个值。此表比较简单,只有两行三列,各个值说明如下:

1.8.附录

附录、所需要的模型输入数据变量表(供参考)

对应于所有的数值型字段,空缺的值请补充0。

FieldsName

Descriptive

Notes

Churn

流失标志

训练输入0、1,0-非流失1-流失应用不需要输入

CustID

手机号码

Join_Date

入网月份

User_Type

用户类型

Industry_Type

用户行业类型

Birthday

生日

未知填0

Sex

性别

0-男,2-女,3-其它

Exist_Time

入网至今多少个月份数

Pay_Method

支付方式

0-现金,1-托收

Agent_type

是否为营业厅入网

0-非,1-是

If_disc_join

是否优惠期入网

Total_Pay_late_Num

过去六个月中不及时缴费的次数

Total_abort_use_num

过去六个月中曾停机的次数

包括欠停、自报停、高额停

Total_disc_fee

过去六个月中总的优惠金额

包括计费与帐务优惠

Total_Times_1

最近第1月通话总次数

Total_Times_2

最近第2月通话总次数

Total_Times_3

最近第3月通话总次数

Total_Times_4

最近第4月通话总次数

Total_Times_5

最近第5月通话总次数

Total_Times_6

最近第6月通话总次数

Total_Duration_1

最近第1月通话总时长

Total_Duration_2

最近第2月通话总时长

Total_Duration_3

最近第3月通话总时长

Total_Duration_4

最近第4月通话总时长

Total_Duration_5

最近第5月通话总时长

Total_Duration_6

最近第6月通话总时长

Inbound_Times_1

最近第1月受话总次数

Inbound_Times_2

最近第2月受话总次数

Inbound_Times_3

最近第3月受话总次数

Inbound_Times_4

最近第4月受话总次数

Inbound_Times_5

最近第5月受话总次数

Inbound_Times_6

最近第6月受话总次数

Inbound_Duration_1

最近第1月受话总时长

Inbound_Duration_2

最近第2月受话总时长

Inbound_Duration_3

最近第3月受话总时长

Inbound_Duration_4

最近第4月受话总时长

Inbound_Duration_5

最近第5月受话总时长

Inbound_Duration_6

最近第6月受话总时长

Outbound_Times_1

最近第1月发话总次数

Outbound_Times_2

最近第2月发话总次数

Outbound_Times_3

最近第3月发话总次数

Outbound_Times_4

最近第4月发话总次数

Outbound_Times_5

最近第5月发话总次数

Outbound_Times_6

最近第6月发话总次数

Outbound_Duration_1

最近第1月发话总时长

Outbound_Duration_2

最近第2月发话总时长

Outbound_Duration_3

最近第3月发话总时长

Outbound_Duration_4

最近第4月发话总时长

Outbound_Duration_5

最近第5月发话总时长

Outbound_Duration_6

最近第6月发话总时长

Local_Times_1

最近第1月地非长途总次数

Local_Times_2

最近第2月地非长途总次数

Local_Times_3

最近第3月地非长途总次数

Local_Times_4

最近第4月地非长途总次数

Local_Times_5

最近第5月地非长途总次数

Local_Times_6

最近第6月地非长途总次数

Local_Duration_1

最近第1月本地非长途总时长

Local_Duration_2

最近第2月本地非长途总时长

Local_Duration_3

最近第3月本地非长途总时长

Local_Duration_4

最近第4月本地非长途总时长

Local_Duration_5

最近第5月本地非长途总时长

Local_Duration_6

最近第6月本地非长途总时长

Local_Long_times_1

最近第1月本地长途总次数

Local_long_Times_2

最近第2月本地长途总次数

Local_long_Times_3

最近第3月本地长途总次数

Local_long_Times_4

最近第4月本地长途总次数

Local_long_Times_5

最近第5月本地长途总次数

Local_long_Times_6

最近第6月本地长途总次数

Local_long_Duration_1

最近第1月本地长途总时长

Local_long_Duration_2

最近第2月本地长途总时长

Local_long_Duration_3

最近第3月本地长途总时长

Local_long_Duration_4

最近第4月本地长途总时长

Local_long_Duration_5

最近第5月本地长途总时长

Local_long_duration_6

Roam_Times_1

最近第1月漫游通话总次数

Roam_Times_2

最近第2月漫游通话总次数

Roam_Times_3

最近第3月漫游通话总次数

Roam_Times_4

最近第4月漫游通话总次数

Roam_Times_5

最近第5月漫游通话总次数

Roam_Times_6

最近第6月漫游通话总次数

Roam_Duration_1

最近第1月漫游通话总时长

Roam_Duration_2

最近第2月漫游通话总时长

Roam_Duration_3

最近第3月漫游通话总时长

Roam_Duration_4

最近第4月漫游通话总时长

Roam_Duration_5

最近第5月漫游通话总时长

Roam_Duration_6

最近第6月漫游通话总时长

Workday_Times_1

最近第1月工作日通话总次数

Workday_Times_2

最近第2月工作日通话总次数

Workday_Times_3

最近第3月工作日通话总次数

Workday_Times_4

最近第4月工作日通话总次数

Workday_Times_5

最近第5月工作日通话总次数

Workday_Times_6

最近第6月工作日通话总次数

Workday_Duration_1

最近第1月工作日通话总时长

Workday_Duration_2

最近第2月工作日通话总时长

Workday_Duration_3

最近第3月工作日通话总时长

Workday_Duration_4

最近第4月工作日通话总时长

Workday_Duration_5

最近第5月工作日通话总时长

Workday_Duration_6

最近第6月工作日通话总时长

Leisureday_Times_1

最近第1月非工作日通话总次数

Leisureday_Times_2

最近第2月非工作日通话总次数

Leisureday_Times_3

最近第3月非工作日通话总次数

Leisureday_Times_4

最近第4月非工作日通话总次数

Leisureday_Times_5

最近第5月非工作日通话总次数

Leisureday_Times_6

最近第6月非工作日通话总次数

Leisureday_Duration_1

最近第1月非工作日通话总时长

Leisureday_Duration_2

最近第2月非工作日通话总时长

Leisureday_Duration_3

最近第3月非工作日通话总时长

Leisureday_Duration_4

最近第4月非工作日通话总时长

Leisureday_Duration_5

最近第5月非工作日通话总时长

Leisureday_Duration_6

最近第6月非工作日通话总时长

AM8_PM5_Times_1

最近第1月AM8到PM5通话总次数

AM8_PM5_Times_2

最近第2月AM8到PM5通话总次数

AM8_PM5_Times_3

最近第3月AM8到PM5通话总次数

AM8_PM5_Times_4

最近第4月AM8到PM5通话总次数

AM8_PM5_Times_5

最近第5月AM8到PM5通话总次数

AM8_PM5_Times_6

最近第6月AM8到PM5通话总次数

AM8_PM5_Duration_1

最近第1月AM8到PM10通话总时长

AM8_PM5_Duration_2

最近第2月AM8到PM10通话总时长

AM8_PM5_Duration_3

最近第3月AM8到PM10通话总时长

AM8_PM5_Duration_4

最近第4月AM8到PM10通话总时长

AM8_PM5_Duration_5

最近第5月AM8到PM10通话总时长

AM8_PM5_Duration_6

最近第6月AM8到PM10通话总时长

PM5_PM10_Times_1

最近第1月PM5到PM10通话总次数

PM5_PM10_Times_2

最近第2月PM5到PM10通话总次数

PM5_PM10_Times_3

最近第3月PM5到PM10通话总次数

PM5_PM10_Times_4

最近第4月PM5到PM10通话总次数

PM5_PM10_Times_5

最近第5月PM5到PM10通话总次数

PM5_PM10_Times_6

最近第6月PM5到PM10通话总次数

PM5_PM10_Duration_1

最近第1月PM5到PM10通话总时长

PM5_PM10_Duration_2

最近第2月PM5到PM10通话总时长

PM5_PM10_Duration_3

最近第3月PM5到PM10通话总时长

PM5_PM10_Duration_4

最近第4月PM5到PM10通话总时长

PM5_PM10_Duration_5

最近第5月PM5到PM10通话总时长

PM5_PM10_Duration_6

最近第6月PM5到PM10通话总时长

PM10_AM8_Times_1

最近第1月PM10到AM8通话总次数

PM10_AM8_Times_2

最近第2月PM10到AM8通话总次数

PM10_AM8_Times_3

最近第3月PM10到AM8通话总次数

PM10_AM8_Times_4

最近第4月PM10到AM8通话总次数

PM10_AM8_Times_5

最近第5月PM10到AM8通话总次数

PM10_AM8_Times_6

最近第6月PM10到AM8通话总次数

PM10_AM8_Duration_1

最近第1月PM10到AM8通话总时长

PM10_AM8_Duration_2

最近第2月PM10到AM8通话总时长

PM10_AM8_Duration_3

最近第3月PM10到AM8通话总时长

PM10_AM8_Duration_4

最近第4月PM10到AM8通话总时长

PM10_AM8_Duration_5

最近第5月PM10到AM8通话总时长

PM10_AM8_Duration_6

最近第6月PM10到AM8通话总时长

Inbound_ChinaMobile_DiffNum_1

最近第1月被不同移动号码呼叫的号码数

Inbound_ChinaMobile_DiffNum_2

最近第2月被不同移动号码呼叫的号码数

Inbound_ChinaMobile_DiffNum_3

最近第3月被不同移动号码呼叫的号码数

Inbound_ChinaMobile_DiffNum_4

最近第4月被不同移动号码呼叫的号码数

Inbound_ChinaMobile_DiffNum_5

最近第5月被不同移动号码呼叫的号码数

Inbound_ChinaMobile_DiffNum_6

最近第6月被不同移动号码呼叫的号码数

Inbound_Unicom_DiffNum_1

最近第1月被不同联通号码呼叫的号码数

Inbound_Unicom_DiffNum_2

最近第2月被不同联通号码呼叫的号码数

Inbound_Unicom_DiffNum_3

最近第3月被不同联通号码呼叫的号码数

Inbound_Unicom_DiffNum_4

最近第4月被不同联通号码呼叫的号码数

Inbound_Unicom_DiffNum_5

最近第5月被不同联通号码呼叫的号码数

Inbound_Unicom_DiffNum_6

最近第6月被不同联通号码呼叫的号码数

Inbound_Fixedline_DiffNum_1

最近第1月被不同电信号码呼叫的号码数

Inbound_Fixedline_DiffNum_2

最近第2月被不同电信号码呼叫的号码数

Inbound_Fixedline_DiffNum_3

最近第3月被不同电信号码呼叫的号码数

Inbound_Fixedline_DiffNum_4

最近第4月被不同电信号码呼叫的号码数

Inbound_Fixedline_DiffNum_5

最近第5月被不同电信号码呼叫的号码数

Inbound_Fixedline_DiffNum_6

最近第6月被不同电信号码呼叫的号码数

Outbound_ChinaMobile_DiffNum_1

最近第1月呼叫的不同移动号码的号码数

Outbound_ChinaMobile_DiffNum_2

最近第2月呼叫的不同移动号码的号码数

Outbound_ChinaMobile_DiffNum_3

最近第3月呼叫的不同移动号码的号码数

Outbound_ChinaMobile_DiffNum_4

最近第4月呼叫的不同移动号码的号码数

Outbound_ChinaMobile_DiffNum_5

最近第5月呼叫的不同移动号码的号码数

Outbound_ChinaMobile_DiffNum_6

最近第6月呼叫的不同移动号码的号码数

Outbound_Unicom_DiffNum_1

最近第1月呼叫的不同联通号码的号码数

Outbound_Unicom_DiffNum_2

最近第2月呼叫的不同联通号码的号码数

Outbound_Unicom_DiffNum_3

最近第3月呼叫的不同联通号码的号码数

Outbound_Unicom_DiffNum_4

最近第4月呼叫的不同联通号码的号码数

Outbound_Unicom_DiffNum_5

最近第5月呼叫的不同联通号码的号码数

Outbound_Unicom_DiffNum_6

最近第6月呼叫的不同联通号码的号码数

Outbound_Fixedline_DiffNum_1

最近第1月呼叫的不同电信号码的号码数

Outbound_Fixedline_DiffNum_2

最近第2月呼叫的不同电信号码的号码数

Outbound_Fixedline_DiffNum_3

最近第3月呼叫的不同电信号码的号码数

Outbound_Fixedline_DiffNum_4

最近第4月呼叫的不同电信号码的号码数

Outbound_Fixedline_DiffNum_5

最近第5月呼叫的不同电信号码的号码数

Outbound_Fixedline_DiffNum_6

最近第6月呼叫的不同电信号码的号码数

Forward_ChianMobile_Num_1

最近第1月呼转移动的次数

Forward_ChianMobile_Num_2

最近第2月呼转移动的次数

Forward_ChianMobile_Num_3

最近第3月呼转移动的次数

Forward_ChianMobile_Num_4

最近第4月呼转移动的次数

Forward_ChianMobile_Num_5

最近第5月呼转移动的次数

Forward_ChianMobile_Num_6

最近第6月呼转移动的次数

Forward_Unicom_Num_1

最近第1月呼转联通的次数

Forward_Unicom_Num_2

最近第2月呼转联通的次数

Forward_Unicom_Num_3

最近第3月呼转联通的次数

Forward_Unicom_Num_4

最近第4月呼转联通的次数

Forward_Unicom_Num_5

最近第5月呼转联通的次数

Forward_Unicom_Num_6

最近第6月呼转联通的次数

Forward_Fixedline_Num_1

最近第1月呼转电信的次数

Forward_Fixedline_Num_2

最近第2月呼转电信的次数

Forward_Fixedline_Num_3

最近第3月呼转电信的次数

Forward_Fixedline_Num_4

最近第4月呼转电信的次数

Forward_Fixedline_Num_5

最近第5月呼转电信的次数

Forward_Fixedline_Num_6

最近第6月呼转电信的次数

SMS_In_Num_1

最近第1月受短信条数

SMS_In_Num_2

最近第2月受短信条数

SMS_In_Num_3

最近第3月受短信条数

SMS_In_Num_4

最近第4月受短信条数

SMS_In_Num_5

最近第5月受短信条数

SMS_In_Num_6

最近第6月受短信条数

SMS_Out_Num_1

最进第1月发短信的条数

SMS_Out_Num_2

最进第2月发短信的条数

SMS_Out_Num_3

最进第3月发短信的条数

SMS_Out_Num_4

最进第4月发短信的条数

SMS_Out_Num_5

最进第5月发短信的条数

SMS_Out_Num_6

最进第6月发短信的条数

Total_Charge_1

最近第1月总费用

最好是每月的月结帐单(应缴)

Total_Charge_2

最近第2月总费用

Total_Charge_3

最近第3月总费用

Total_Charge_4

最近第4月总费用

Total_Charge_5

最近第5月总费用

Total_Charge_6

最近第6月总费用

Call_Charge_1

最近第1月总话费

应缴的纯通话费

Call_Charge_2

最近第2月总话费

Call_Charge_3

最近第3月总话费

Call_Charge_4

最近第4月总话费

Call_Charge_5

最近第5月总话费

Call_Charge_6

最近第6月总话费

If_Vpn_1

最近第1月是否是Vpn

If_Vpn_2

最近第2月是否是Vpn

If_Vpn_3

最近第3月是否是Vpn

If_Vpn_4

最近第4月是否是Vpn

If_Vpn_5

最近第5月是否是Vpn

If_Vpn_6

最近第6月是否是Vpn

Plaint_Times_1

最近第1月抱怨次数

Plaint_Times_2

最近第2月抱怨次数

Plaint_Times_3

最近第3月抱怨次数

Plaint_Times_4

最近第4月抱怨次数

Plaint_Times_5

最近第5月抱怨次数

Plaint_Times_6

最近第6月抱怨次数

Plaint_Type_RelatetoChurn(0or1)

没有的话可以为空

Consult_Times_1

最近第1月咨询次数

Consult_Times_2

最近第2月咨询次数

Consult_Times_3

最近第3月咨询次数

Consult_Times_4

最近第4月咨询次数

Consult_Times_5

最近第5月咨询次数

Consult_Times_6

最近第6月咨询次数

Consult_Type_RelatedtoPackage(0or1)

New_AddedValue_Num_1

最近第1月新开通特服的个数

New_AddedValue_Num_2

最近第2月新开通特服的个数

New_AddedValue_Num_3

最近第3月新开通特服的个数

New_AddedValue_Num_4

最近第4月新开通特服的个数

New_AddedValue_Num_5

最近第5月新开通特服的个数

New_AddedValue_Num_6

最近第6月新开通特服的个数

Total_AddedValue_Count_1

最近第1月特服的总个数

Total_AddedValue_Count_2

最近第2月特服的总个数

Total_AddedValue_Count_3

最近第3月特服的总个数

Total_AddedValue_Count_4

最近第4月特服的总个数

Total_AddedValue_Count_5

最近第5月特服的总个数

Total_AddedValue_Count_6

最近第6月特服的总个数

Change_Package_Num_1

最近第1月改变套餐的次数

Change_Package_Num_2

最近第2月改变套餐的次数

Change_Package_Num_3

最近第3月改变套餐的次数

Change_Package_Num_4

最近第4月改变套餐的次数

Change_Package_Num_5

最近第5月改变套餐的次数

Change_Package_Num_6

最近第6月改变套餐的次数

附件2:新增字段列表

字段名

字段说明

T_AVG_TIMES

最近三个月平均通话次数

T_AVG_DURATION

最近三个月平均通话时长

T_AVG_INBOUNT_TIMES

最近三个月平均受话次数

T_AVG_INBOUNT_DURATION

最近三个月平均受话时长

T_AVG_OUTBOUNT_TIMES

最近三个月平均发话次数

T_AVG_OUTBOUNT_DURATION

最近三个月平均发话时长

T_AVG_LOCAL_TIMES

最近三个月平均本地通话次数

T_AVG_LOCAL_DURATION

最近三个月平均本地通话时长

T_AVG_NATIONAL_TIMES

最近三个月平均国内长途通话次数

T_AVG_NATIONAL_DURATION

最近三个月平均国内长途通话时长

T_AVG_ROAM_NATIONAL_TIMES

最近三个月平均国内漫游通话次数

T_AVG_ROAM_NATIONAL_DURATION

最近三个月平均国内漫游通话时长

T_AVG_IN_CM_DIFFNUM

最近三个月平均被不同移动号码呼叫的号码数

T_AVG_IN_UN_DIFFNUM

最近三个月平均被不同联通号码呼叫的号码数

T_AVG_IN_FL_DIFFNUM

最近三个月平均被不同固定号码呼叫的号码数

T_AVG_OUT_CM_DIFFNUM

最近三个月平均呼叫不同移动号码呼叫的号码数

T_AVG_OUT_UN_DIFFNUM

最近三个月平均呼叫不同联通号码呼叫的号码数

T_AVG_OUT_FL_DIFFNUM

最近三个月平均呼叫不同固定号码呼叫的号码数

T_AVG_FW_CM_DIFFNUM

最近三个月平均呼转移动的次数

T_AVG_FW_UN_DIFFNUM

最近三个月平均呼转联通的次数

T_AVG_FW_FL_DIFFNUM

T_AVG_TOTAL_CHARGE

最近三个月平均费用

T_AVG_CALL_CHARGE

最近三个月平均通话费用

T_AVG_WORKDAY_TIMES

最近三个月工作日平均通话次数

T_AVG_WORKDAY_DURATION

最近三个月工作日平均通话时长

T_AVG_LEISUREDAY_TIMES

最近三个月非工作日平均通话次数

T_AVG_LEISUREDAY_DURATION

最近三个月非工作日平均通话时长

T_AVG_AM8_PM5_TIMES

最近三个月AM8到PM5平均通话次数

T_AVG_AM8_PM5_DURATION

最近三个月AM8到PM5平均通话时长

T_AVG_PM5_PM10_TIMES

最近三个月PM5到PM10平均通话次数

T_AVG_PM5_PM10_DURATION

最近三个月PM5到PM10平均通话时长

T_AVG_PM10_AM8_TIMES

最近三个月PM10到AM8平均通话次数

T_AVG_PM10_AM8_DURATION

最近三个月PM10到AM8平均通话时长

T_AVG_SMS_OUT_NUM

最近三个月平均发短消息条数

S_AVG_TIMES

最近六个月平均通话次数

S_AVG_DURATION

最近六个月平均通话时长

S_AVG_INBOUNS_TIMES

最近六个月平均受话次数

S_AVG_INBOUNS_DURATION

最近六个月平均受话时长

S_AVG_OUTBOUNS_TIMES

最近六个月平均发话次数

S_AVG_OUTBOUNS_DURATION

最近六个月平均发话时长

S_AVG_LOCAL_TIMES

最近六个月平均本地通话次数

S_AVG_LOCAL_DURATION

最近六个月平均本地通话时长

S_AVG_NATIONAL_TIMES

最近六个月平均国内长途通话次数

S_AVG_NATIONAL_DURATION

最近六个月平均国内长途通话时长

S_AVG_ROAM_NATIONAL_TIMES

最近六个月平均国内漫游通话次数

S_AVG_ROAM_NATIONAL_DURATION

最近六个月平均国内漫游通话时长

S_AVG_IN_CM_DIFFNUM

最近六个月平均被不同移动号码呼叫的号码数

S_AVG_IN_UN_DIFFNUM

最近六个月平均被不同联通号码呼叫的号码数

S_AVG_IN_FL_DIFFNUM

最近六个月平均被不同固定号码呼叫的号码数

S_AVG_OUS_CM_DIFFNUM

最近六个月平均呼叫不同移动号码呼叫的号码数

S_AVG_OUS_UN_DIFFNUM

最近六个月平均呼叫不同联通号码呼叫的号码数

S_AVG_OUS_FL_DIFFNUM

最近六个月平均呼叫不同固定号码呼叫的号码数

S_AVG_FW_CM_DIFFNUM

最近六个月平均呼转移动的次数

S_AVG_FW_UN_DIFFNUM

最近六个月平均呼转联通的次数

S_AVG_FW_FL_DIFFNUM

S_AVG_TOTAL_CHARGE

最近六个月平均费用

S_AVG_CALL_CHARGE

最近六个月平均通话费用

S_AVG_WORKDAY_TIMES

最近六个月工作日平均通话次数

S_AVG_WORKDAY_DURATION

最近六个月工作日平均通话时长

S_AVG_LEISUREDAY_TIMES

最近六个月非工作日平均通话次数

S_AVG_LEISUREDAY_DURATION

最近六个月非工作日平均通话时长

S_AVG_AM8_PM5_TIMES

最近六个月AM8到PM5平均通话次数

S_AVG_AM8_PM5_DURATION

最近六个月AM8到PM5平均通话时长

S_AVG_PM5_PM10_TIMES

最近六个月PM5到PM10平均通话次数

S_AVG_PM5_PM10_DURATION

最近六个月PM5到PM10平均通话时长

S_AVG_PM10_AM8_TIMES

最近六个月PM10到AM8平均通话次数

S_AVG_PM10_AM8_DURATION

最近六个月PM10到AM8平均通话时长

S_AVG_SMS_OUT_NUM

最近六个月平均发短消息条数

RT_AVG_TIMES

最近一个月与最近三个月平均通话次数的比值

RT_AVG_DURATION

最近一个月与最近三个月平均通话时长的比值

RT_AVG_INBOUNRT_TIMES

最近一个月与最近三个月平均受话次数的比值

RT_AVG_INBOUNRT_DURATION

最近一个月与最近三个月平均受话时长的比值

RT_AVG_OUTBOUNRT_TIMES

最近一个月与最近三个月平均发话次数的比值

RT_AVG_OUTBOUNRT_DURATION

最近一个月与最近三个月平均发话时长的比值

RT_AVG_LOCAL_TIMES

最近一个月与最近三个月平均本地通话次数的比值

RT_AVG_LOCAL_DURATION

最近一个月与最近三个月平均本地通话时长的比值

RT_AVG_NATIONAL_TIMES

最近一个月与最近三个月平均国内长途通话次数的比值

RT_AVG_NATIONAL_DURATION

最近一个月与最近三个月平均国内长途通话时长的比值

RT_AVG_ROAM_NATIONAL_TIMES

最近一个月与最近三个月平均国内漫游通话次数的比值

RT_AVG_ROAM_NATIONAL_DURATION

最近一个月与最近三个月平均国内漫游通话时长的比值

RT_AVG_IN_CM_DIFFNUM

最近一个月与最近三个月平均被不同移动号码呼叫的号码数的比值

RT_AVG_IN_UN_DIFFNUM

最近一个月与最近三个月平均被不同联通号码呼叫的号码数的比值

RT_AVG_IN_FL_DIFFNUM

最近一个月与最近三个月平均被不同固定号码呼叫的号码数的比值

RT_AVG_OURT_CM_DIFFNUM

最近一个月与最近三个月平均呼叫不同移动号码呼叫的号码数的比值

RT_AVG_OURT_UN_DIFFNUM

最近一个月与最近三个月平均呼叫不同联通号码呼叫的号码数的比值

RT_AVG_OURT_FL_DIFFNUM

最近一个月与最近三个月平均呼叫不同固定号码呼叫的号码数的比值

RT_AVG_FW_CM_DIFFNUM

最近一个月与最近三个月平均呼转移动的次数的比值

RT_AVG_FW_UN_DIFFNUM

最近一个月与最近三个月平均呼转联通的次数的比值

RT_AVG_FW_FL_DIFFNUM

RT_AVG_TOTAL_CHARGE

最近一个月与最近三个月平均费用的比值

RT_AVG_CALL_CHARGE

最近一个月与最近三个月平均通话费用的比值

RT_AVG_WORKDAY_TIMES

最近一个月与最近三个月工作日平均通话次数的比值

RT_AVG_WORKDAY_DURATION

最近一个月与最近三个月工作日平均通话时长的比值

RT_AVG_LEISUREDAY_TIMES

最近一个月与最近三个月非工作日平均通话次数的比值

RT_AVG_LEISUREDAY_DURATION

最近一个月与最近三个月非工作日平均通话时长的比值

RT_AVG_AM8_PM5_TIMES

最近一个月与最近三个月AM8到PM5平均通话次数的比值

RT_AVG_AM8_PM5_DURATION

最近一个月与最近三个月AM8到PM5平均通话时长的比值

RT_AVG_PM5_PM10_TIMES

最近一个月与最近三个月PM5到PM10平均通话次数的比值

RT_AVG_PM5_PM10_DURATION

最近一个月与最近三个月PM5到PM10平均通话时长的比值

RT_AVG_PM10_AM8_TIMES

最近一个月与最近三个月PM10到AM8平均通话次数的比值

RT_AVG_PM10_AM8_DURATION

最近一个月与最近三个月PM10到AM8平均通话时长的比值

RT_AVG_SMS_OUT_NUM

最近一个月与最近三个月平均发短消息条数的比值

RS_AVG_TIMES

最近一个月与最近六个月平均通话次数的比值

RS_AVG_DURATION

最近一个月与最近六个月平均通话时长的比值

RS_AVG_INBOUNST_TIMES

最近一个月与最近六个月平均受话次数的比值

RS_AVG_INBOUNST_DURATION

最近一个月与最近六个月平均受话时长的比值

RS_AVG_OUTBOUNST_TIMES

最近一个月与最近六个月平均发话次数的比值

RS_AVG_OUTBOUNRS_DURATION

最近一个月与最近六个月平均发话时长的比值

RS_AVG_LOCAL_TIMES

最近一个月与最近六个月平均本地通话次数的比值

RS_AVG_LOCAL_DURATION

最近一个月与最近六个月平均本地通话时长的比值

RS_AVG_NATIONAL_TIMES

最近一个月与最近六个月平均国内长途通话次数的比值

RS_AVG_NATIONAL_DURATION

最近一个月与最近六个月平均国内长途通话时长的比值

RS_AVG_ROAM_NATIONAL_TIMES

最近一个月与最近六个月平均国内漫游通话次数的比值

RS_AVG_ROAM_NATIONAL_DURATION

最近一个月与最近六个月平均国内漫游通话时长的比值

RS_AVG_IN_CM_DIFFNUM

最近一个月与最近六个月平均被不同移动号码呼叫的号码数的比值

RS_AVG_IN_UN_DIFFNUM

最近一个月与最近六个月平均被不同联通号码呼叫的号码数的比值

RS_AVG_IN_FL_DIFFNUM

最近一个月与最近六个月平均被不同固定号码呼叫的号码数的比值

RS_AVG_OURS_CM_DIFFNUM

最近一个月与最近六个月平均呼叫不同移动号码呼叫的号码数的比值

RS_AVG_OURS_UN_DIFFNUM

最近一个月与最近六个月平均呼叫不同联通号码呼叫的号码数的比值

RS_AVG_OURS_FL_DIFFNUM

最近一个月与最近六个月平均呼叫不同固定号码呼叫的号码数的比值

THE END
1.数据挖掘概念(AnalysisServices有关如何将 SQL Server 工具应用于业务方案的示例,请参阅数据挖掘基础教程。 定义问题 与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。 该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题: https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.具备安全态势感知能力的安全管理平台厂商动态图:态势感知核心过程示意图 它通过态势要素获取,获得必要的数据,然后通过数据分析进行态势理解,进而实现对未来短期时间内的态势预测。注意,态势感知最终达成的目标是实现对未来的短期预测,是一个动态、准实时系统。 1.2 安全态势感知 在上个世纪末90年代,态势感知才被引入到信息技术安全领域,并首先用于对下一代入侵检测https://news.zol.com.cn/149/1490562.html
3.zfcg.fuzhou.gov.cn/upload/document/20210531/a2f60d92e4d649a9计算资源管理调度功能示意图 计算资源管理调度模块不仅对GPU计算资源设备进行管理与调度,对GPU容器云平台进行管理与调度,而且对不同算法仓库体系模式的分析集群进行统一管理。 功能设 计 针对独立分析集群,计算资源管理调度模块主要实现嵌入式架构GPU服务器、通用X86架构GPU服务器的运行状态管理,以及按照单台或多台的方式添http://zfcg.fuzhou.gov.cn/upload/document/20210531/a2f60d92e4d649a9bd2b904312f583f0.html
4.编程数学之图形可视化分析白宁超的官网通过揭示数据背后的规律和隐藏信息,给相关角色提供参照价值,做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍常见的图形可视化的概念和使用,使读者最短时间掌握基本的统计知识。(本文原创,转载必须注明出处.) 饼图 定义 饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度https://bainingchao.github.io/2018/10/10/%E7%BC%96%E7%A8%8B%E6%95%B0%E5%AD%A6%E4%B9%8B%E5%9B%BE%E5%BD%A2%E5%8F%AF%E8%A7%86%E5%8C%96%E5%88%86%E6%9E%90/
5.《2020科技趋势报告》:AI和中国,成为未来科技世界关键词程序员使用特殊的深度学习算法,同时使用大量的数据,通常是数兆字节的文本、图像、视频、语音等,系统被训练成独立学习。虽然概念上的深度学习并不是什么新鲜事,但最近发生的变化是计算量和可用的数据量。实际上,这意味着越来越多的人工过程将被自动化,包括软件的编写,计算机很快就会开始自己编写。 https://www.tmtpost.com/4274113.html
6.HTTP/2协议HPACK(HTTP2头部压缩)原理介绍1.3 HEADER 压缩编码示意图 Tips:'Huffman'算法是一种压缩算法。 1.4 HEADER 压缩编码示意图 动态表可以简单理解为在请求过程中映射的索引表,比如第一个请求帧(frame)使用静态表+Huffman算法构成的索引表(静态表+动态表)可以在下一次请求帧(frame)中只需要传递新增的内容使用Huffman算法,不变的内容可以使用索引表中https://developer.aliyun.com/article/1343532
7.生物材料双向拉伸试验知识科普图7 心包内注射机械-电耦合水凝胶贴片用于心肌修复示意图[40] 除上述方法外,3D工程心血管组织在替换受损结构方面显示出巨大的前景。具体地说,组织工程血管移植物具有取代生物和合成移植物的潜力。Mayoral等通过3D打印、混合熔融沉积建模、静电纺丝技术和干细胞接种制作了一种组织工程化体外血管贴片(见图8),用于评价3Dhttp://www.tjcaremc.com/Article-3400021.html
8.大厂技术实现详解知识图谱的构建全流程@自然语言处理系列自底向上构建:借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。 知识图谱的构建 | 自顶向下→自底向上; 6-3 1.3 “实体-关系-实体”三元组 下图是典型的知识图谱样例示意图。可以看到,“图谱”中有很多节点,如果两个节点之间存在关系,他们就会被一条无向边连接https://cloud.tencent.com/developer/article/1938296
9.技术揭秘互联网广告黑产盛行,如何反作弊?机器作弊[1]成本低,特征集中,容易识别;人工作弊成本高,作弊者要想获利也会表现会一定的集中性,需要深入分析数据挖掘异常特征,从而识别作弊。 三 广告点击反作弊核心问题 世界广告主联盟WFA表示[1]“若不采取措施,2025 年虚假广告花费将高达 500 亿美元,仅次于毒品交易金额,成为世界第二大非法营收https://www.51cto.com/article/635445.html
10.数字孪生数字孪生系列报道:15家单位22位作者研究成果,数字数据融合是指在实现车间物理融合与模型融合基础上,基于车间运行一致性原理,对物理车间现场实时数据、虚拟车间模型数据、仿真数据、车间服务系统数据等覆盖全要素、全流程、全业务的相关数据进行生成—建模—清洗—关联—聚类—挖掘—迭代—演化—融合等操作,有效真实刻画和反映车间运行状态、要素行为等各类动态演化过程、https://www.zhuanzhi.ai/document/d63863c6849a79c6a6f25d51bb522554
11.《暗黑地牢》全地图各道具使用效果一览表(2)检查GPS上的采集信息后,把GPS连接至计算机进行数据导入,但连接前一定要关闭GPS电源再连接。 电子地图如何制作简介 电子地图如何制作简介 下列为电子地图的制作过程 1.准备纸的地图如:交通旅游图、测绘局购买的图等你想做的图。 2.把准备的地图扫描进计算机 3.下载地图矢量化软件mapinfo professional,autoCAD等也https://m.360docs.net/doc/fa2328e24bfe04a1b0717fd5360cba1aa8118c2f.html
12.艺术档案数字化民间艺术的数字化涉及信息的采集、处理和储存,这其中包含采集设备的选择、数据处理方式、储存格式和数据库技术。但是截止到目前,并没有一个全国统一的数据加工规范或标准,无论在民间艺术普查阶段还是在名录项目申过程中,都不同程度存在一些问题,具体表现在:数据资料保存很好,但标示和描述很差,以至于使潜在的用户无法了解https://www.zboao.com/cgal/8068.html
13.科学网—[转载]人工智能时代的数据隐私垄断与公平图2 数据透明对隐私、垄断和公平问题的促进作用示意图 在大数据透明的具体实现上,政府机构和研究者们分别从政策和技术上做出诸多努力和探索。政策上,GDPR等法律法规的出台,明确规定了数据主体(即用户)对数据的控制权,以保证个人数据在其数据生命周期中具有更高的透明度,数据主体对个人数据具有更强的管控能力;技术上,https://blog.sciencenet.cn/blog-3472670-1289492.html
14.2020年媒体技术趋势报告:13大领域89项变革全输出德克萨斯大学阿灵顿分校和谷歌的研究人员一直在研究使用框架语义的自动化技术。框架是描述了特定类型事件、情况、对象或关系及其参与者的示意图。研究人员扩展了一个名为FrameNet的系统用来专门为包括自动事实核查在内的功能构建新框架。 在屏事实核查 (On-Screen Fact Checking) https://36kr.com/p/5267903
15.机器学习实战——LBP特征提取在上面的实验中,由于数据图只有2020,单元尺寸为4时,单元个数只有25个,所以在等价旋转不变LBP算法中,特征维度只有925,等价模式本来为了降维而生,但是本身就不高的维度降维后,丢失了很多特征信息,这可能是LBP(9)只有86.7%的准确率的重要原因。总结一下,上面的实验结果只是一个很简单的验证,并不能说明LBP(9)算法不https://www.jianshu.com/p/8d96ceb45f74