随着传统金融业务与互联网、移动通信技术的深度融合,金融产品飞速创新,金融业务量迅速增大,贷款、支付等金融交易数据呈爆发式增长,在一定程度上增加了银行信用风险管理的难度,审计对银行客户的风险识别与贷款的分类核查也面临着巨大挑战。因此,亟待通过对客户基本情况、金融交易等信息进行整合,将原来分散在银行各个业务处理系统的客户信息集中统一管理,再通过对海量客户贷款数据和客户交易流水数据进行分析,挖掘有价值的信息,提升贷款风险分类的准确度和客户画像的精准度,从而推动银行加强信用风险管理。本文提出基于对抗自编码聚类算法的银行贷款风险分类审计模型,正是在大数据条件下解决这一问题的重要探索。
(一)对抗自编码算法
AAE算法的具体训练过程主要分为三步:首先,充当生成器G的编码器对输入的客户银行流水统计数据进行编码,生成一个隐藏变量z;然后,生成器G和判别器D组成的对抗网络开始对数据进行无监督学习;最后,借助于解码器对该隐藏变量z进行解码,生成客户银行流水特征数据集。采用上述方法的优势是,不需要预设特征指标,指标完全从原始数据中学习得到,并能指定任意指标长度。同时,上述方法具有较大的拓展空间,可以根据需要对数据时段、采样频率、交易方向、交易类型等进行设定。
(二)聚类算法
聚类算法是无监督学习的典型算法,不需要对数据集进行标记,即可通过数据挖掘探索发现一定的模式,按照内在相似性将数据划分为多个类别使得类内相似性大而类间相似性小,即同一类数据具有相同的特征,以来发现并区分不同的群体,因而从中分辨出具有异常特征的数据。因为银行流水是反映企业经营情况的重要指标,所以本文使用聚类算法对自编码生成的客户银行流水特征数据进行学习,不仅可以对信贷资产质量情况进行分析,还能够更深层次挖掘出客户的群体信息,实现对客户群体的划分。
本文运用Kmeans、MiniBatchKmeans、AffinityPropagation、MeanShift、SpectralClustering、Ward、AgglomerativeClustering、DBSCAN、Birch、GaussianMixture这十种聚类算法对编码完成的客户银行流水特征数据集进行学习(如图1),并对聚类后的结果进行分析,通过不断学习训练,得出效果较好的几种算法,用以对银行信贷资产质量进行评价。
图1客户流水特征数据集聚类结果
银行贷款风险分类审计模型的训练和效果验证
(一)银行贷款风险分类审计模型-对抗自编码聚类学习
通过多次实验,得到客户流水特征数据集训练的结果如图1所示。第一、二行是20X2年1月被审计银行贷款表的五级分类情况,第三、四行是对抗自编码聚类模型训练后的结果。客户混合特征数据集训练结果的分布情况与之基本一致。
(二)银行贷款风险分类审计模型效果验证
在假定银行信贷资产质量五级分类准确的基础上,根据对银行客户流水特征数据集和银行客户混合特征数据集训练得到的结果,可以得出,Kmeans算法和MiniBatchKmeans算法的聚类结果基本相同,AffinityPropagation和DBSCAN算法聚类后的类别过多与贷款实际情况不符,MeanShift、SpectralClustering和AgglomerativeClustering算法存在分类效果不佳、分类不准确的问题。选用Kmeans算法、Ward算法、Birch算法和GaussianMixture算法组成的对抗自编码聚类模型的聚类结果相对清晰,聚类后两簇的数据情况更符合银行信贷资产质量分类,评估水平相对较高,故本文使用混淆矩阵对这四种对抗自编码聚类模型进行了效果验证和分析,并利用所选四种算法聚类结果的混淆矩阵计算出分类器的真正率(TruePositiveRate,TPR)、真负率(TrueNegativeRate,TNR)、假正率(FalsePositiveRate,FPR)、假负率(FalseNegativeRate,FNR)、精确率(Precision)和准确率(AccuracyRate),如表1和表2所示。
表1流水特征训练数据聚类结果评价指标
表2混合特征训练数据聚类结果评价指标
综合上述四种聚类算法的结果,本文提出的基于自编码聚类算法的银行贷款风险分类审计模型的精确率和准确率分别为92.34%和96.03%。
银行贷款风险分类审计模型的应用和评价
本文得到国家社会科学基金(项目批准号:17BJY202)的资助。