国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据。数据挖掘在信用卡业务中的重要性日益显现。
一、数据挖掘技术在信用卡业务中的应用
除获取新客户外,维护已有优质客户的忠诚度也非常重要。由于留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中。通过数据挖掘技术,找到流失客户的特征,并发现其流失规律,就能够在那些具有相似特征的持卡人还未流失之前。对其进行有针对性的弥补,使得优质客户能为银行持续创造价值。
2.风险管理
数据挖掘在信用卡业务中的还有一个重要应用就是风险管理。
在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种:申请信用卡评分卡、行为信用评分卡和催收信用评分卡,分别为信用卡业务提供事前、事中、和事后的信用风险控制。
这样,发卡行就能够依据模型的预測,对不同程度的逾期客户採取对应措施进行处理。
以上三种评分模型在建立时,所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包含年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包含持卡人在过去使用信用卡的表现信息,如使用频率、金额、还款情况等。
由此可见,数据挖掘技术的使用,能够使银行有效地建立起事前、事中到事后的信用风险控制体系。
3.运营管理
尽管数据挖掘在信用卡运营管理领域的应用不是最重要的,但它已为国外多家发卡公司在提高生产效率、优化流程、预測资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。
二、经常使用的数据挖掘方法
上述数据挖掘技术在信用卡领域的应用中,有非常多工具可用于开发预測和描写叙述模型。
有些用统计方法,如线性回归和逻辑回归;有些有非统计或混合方法,如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。
1.线性回归
简单线性回归分析是量化两个连续变量之间关系的一种统计技术。
这两个变量各自是因变量(预測变量)。使用这一方法,能够发现一条穿过数据的线,线上的点使相应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时。通常有多个自变量,用多个独立自变量来预測一个连续变量称为多元线性回归,用线性回归方法建立的模型通常具有鲁棒性。
2.逻辑回归
逻辑回归是使用最广泛的建模技术,与线性回归非常相似。
两者的主要差别在于逻辑回归的因变量(想预測变量)不是连续的。而是离散的或者类型变量。
如申请评分模型可运用逻辑回归方法。选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量,以y=[1申请者是坏客户;0申请者是好客户。为因变量。则对于二分类因变量,一般如果客户变坏的概率为p(y=1)=eβ0+β1x1+…+βmxm/1+eβ0+β1x1+…+βmxm式中。β0,β1…,βm是常数,即1n(p/1-p)=β0+β1x1+…+βmxm
3.神经网络
神经网络处理和回归处理大不同样。它不按照不论什么概率分布,而是模仿人脑功能,能够觉得它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成。这些节点通过网络彼此互连。假设有数据输入。它们便能够进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成,完毕大部分网络工作。
输出层输出数据分析的运行结果。
4.遗传算法
与神经元网络类似,遗传算法也不遵循不论什么概率分布。是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码,编码后的解称为染色体。
随机选取n个染色体作为初始种群,再依据预定的评价函数对每一个染色体计算适应值,性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制,并通过遗传算子产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境的个体。得到问题的最优化解。
5.决策树
决策树的目标是逐步将数据分类到不同的组或分支中,在因变量的值上建立最强划分。因为分类规则比較直观,所以易于理解。图1为客户响应的决策树。从中非常easy识别出响应率最高的组。
三、实例分析
下面以逻辑回归方法建立信用卡申请评分模型为例,说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。
1.定义好客户和坏客户的标准
好客户和坏客户的标准依据适合管理的须要定义。
因此,一般银行把减少客户的逾期率作为一个基本的管理目标。比方,将坏客户定义为出现过逾期60天以上的客户;将坏客户定义为出现过逾期60天以上的客户;将好客户定义为没有30天以上逾期且当前没有逾期的客户。
一般来讲,在同一样本空间内。好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力。取好、坏客户样本数比率为1:1。
2.确定样本空间
比方,好客户的样本空间为2003年11月-2003年12月的申请人,坏客户的样本空间为2003年11月-2004年5月的申请人。这样既能保证好客户的表现期较长,又能保证有足够数量的坏客户样本。当然。抽样的好、坏客户都应具有代表性。
在美国,有统一的信用局对个人信用进行评分,通常被称为“FICO评分”。
美国的银行、信用卡公司和金融机构在对客户进行信用风险分析时,能够利用信用局对个人的数据报告。
在我国,因为征信系统还不完好,建模数据主要来自申请表。随着我国全国性征信系统的逐步完好,未来建模的一部分数据能够从征信机构收集到。
4.数据整理
大量取样的数据要真正最后进入模型,必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、依据逻辑判断某些值、寻找反常数据、评估是否真实。能够通过求最小值、最大值和平均值的方法,初步验证抽样数据是否随机、是否具有代表性。
5.变量选择
变量选择要同一时候具有数学统计的正确性和信用卡实际业务的解释力。
6.模型建立
借助SAS9软件,用逐步回归法对变量进行筛选。这里设计了一种算法,分为6个步骤。
步骤3:在第一主成分和第二主成分分别找出15个变量。共30个变量。
步骤5:计算VIF。
7.模型验证
在收集数据时,把全部整理好的数据分为用于建立模型的建模样本和用于模型验证的对比样本。对比样本用于对模型整体预測性、稳定性进行验证。申请评分模型的模型检验指标包含K-S值、ROC、AR等指标。尽管受到数据不干净等客观因素的影响。本例申请评分模型的K-S值已经超过0.4。达到了能够使用的水平。
四、数据挖掘在国内信用卡市场的发展前景
在国外,信用卡业务信息化程度较高,数据库中保留了大量的数量资源。运用数据技术建立的各类模型在信用卡业务中的实施很成功。眼下国内信用卡发卡银行首先利用数据挖掘建立申请评分模型,作为在信用卡业务中应用的第一步。不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。整体而言。数据挖掘在我国信用卡业务中的应用处于数据质量问题,难于构建业务模型。
随着国内各家发卡银行已经建立或着手建立数据仓库。将不同操作源的数据存放到一个集中的环境中,而且进行适当的清洗和转换。
这为数据挖掘提供了一个非常好的操作平台。将给数据挖掘带来各种便利和功能。人民银行的个人征信系统也已上线,在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上,数据挖掘技术在信用卡业务中将具有越来越广阔的应用前景。