案例:恒丰银行——运营风险监测系统

本篇案例为数据猿推出的大型“金融大数据主题策划”活动第一部分的系列案例/征文;感谢恒丰银行的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院合办,中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办

在论坛现场,也将颁发“技术创新奖”、“应用创新奖”、“最佳实践奖”、“优秀案例奖”四大类案例奖

随着经济一体化和金融全球化进程的加速,互联网、移动互联网、互联网+的快速发展,金融机构业务规模的迅猛增长和品种日益丰富,以及新兴业务(如互联网金融、P2P、电子支付)及自身特点(交易场景复杂、覆盖范围广泛、追踪记录难度高)带来的风险层出不穷。在内外部环境因素作用下,恒丰银行建设运营风险监测系统的动因主要体现在以下方面:

1、风险意识驱动

恒丰银行正处于业务和科技高速发展和持续创新、调整阶段,在当前金融大背景下,面临不确定、不稳定因素正在不断增加。

为了提高金融机构防范能力,同时满足监管机构的要求,需要通过全方位风险预警管理体系来进行有效控制,即建立完善的事前、事中、事后的全面风险预警管理体系,结合内外部数据,从客户信息、账户信息、交易信息中挖掘、分析风险特征,动态制定和部署风险监测预警模型规则,从信用风险、交易风险、运营风险等业务条线进行风险监测、防范和控制。将以“客户为中心”的经营理念和全面风险预警管理建设思路有机结合,促进金融业务的持续健康发展。

2、自身需求驱动

通过建立运营风险监测系统,有助于使银行的金融监管体系在满足事后的发现和化解风险的同时,尽快转向事前预警和风险预防,有利于有效分配金融监管资源,实现差别监管,强化现场金融检查的计划性和协调性,促进银行加强自律管理,降低经济损失,树立银行良好的行业形象。

运营风险监测系统是恒丰银行以有效防范和控制会计操作风险为目标而建设的一个风险管理信息系统。它根据恒丰银行已有的核心系统为数据基础,配合多维外接系统数据为参考,满足总、分行会计风险监控人员对监测风险事项进行处理和信息查询的需要,在此基础上实现对会计操作风险进行有效监控,从而达到防范案件、规范操作、堵截案件的目的。

3、技术驱动

传统应用技术架构,无法兼顾实时风险监测需要的高并发、低延迟应用场景需要。

在当前不断升级的带宽网络、云计算、大数据及人工智能技术快速发展和逐步成熟商用的背景下,构建一个要求对海量数据进行分析处理、对计算性能要求高、并且稳定可靠的应用系统成为现实,采用先进和可靠的技术建设的运营风险监测系统,将提升运营风险监测效率、提高风险发现和防范能力,优化运营风险日常业务管理流程。

周期/节奏

运营风险监测系统目前共分为三期实现,本案例介绍一期项目。

1、2016年6月初,恒丰银行正式启动运营风险监测系统一期项目建设。

2、2016年10月底,项目完成了需求分析、设计、开发、测试等实施环节。

3、2016年12月底,系统投产,并在总行和指定分行完成定点试运行。

4、2017年1月底,完成全行推广使用。

客户名称/所属分类

恒丰银行/风控

任务/目标

恒丰银行在运营风险监测系统上线前,只有一个事后监督系统做为运营业务规范性监督;为了强化集中监督的风险监测职能,实现由规范性监督向风险性监督、由单一事后监督向事后监督与事中监测相结合的转变,需要建设运营营风险监测系统,来监测日常业务处理中存在的异常与问题。

由总分行风险监测人员通过对预警信息的及时识别、核查及统计分析,揭示相应风险,并及时处置和化解。从而实现非现场监督与现场监督、全面监督与重点监督、集中监督与分级监督有机结合,提高风险监控的针对性、有效性和时效性,不断降低风险事件出现的可能,以保障内部和客户的资金安全,降低风险、减少损失,以期达到提高监管威慑力、防范案件发生的目的,有效提升恒丰银行运营风险管控能力。

挑战

运营风险监测系统的建设在业务、技术层面上我们遇到了很多方面的挑战,主要体现在以下方面:

2、模型分析、开发难度大

目前大数据平台数据仓库CDM层的业务表有500多张,模型的开发要从这么多表中进行数据的提取,需要模型分析团队对数仓CDM层表结构、表的关联关系、表里的数据情况进行摸底和分析,对模型分析团队的专业水平有非常高的要求,此任务是摆在模型开发团队面前的又一座必须攀越的大山。

3、海量数据、高并发交易流水背景下的系统架构挑战

传统的运营风险监测/预警模型的实现方式,更多采用隔夜跑批的方式,除时效性较差之外,预警模型准确度与精确度难以平衡也是难以解决的难题。预警结果“多而不精”,预警结果“少则遗漏”。

本项目要实现的模型预警时效类型包括T+1日监测和准实时监测,在海量数据、高并发交易流水背景下,如何充分利用恒丰银行大数据平台的计算能力,选择可靠的高级算法并应用到项目中,构建系统的高并发、高处理性能、稳定可靠的系统架构,也是本期项目实施的技术攻坚战。

4、模型可基于业务策略进行灵活配置,对系统设计有更高要求

系统在投产运行后,为了应对正在发生的或随时可能发生的风险,现有模型的调整优化、新模型的补充,将是一个常态化的任务,因此系统对模型的配置必须具备可视化的配置和管理界面,配置功能需要实现模型定义、模型对应规则条件设置、模型使用参数表定义、语法检查、预警数据结果表定义、模型发布并转换为程序可执行的语言等一系列组合功能,同时还需要有友好的用户体验,这对系统的功能设计和实现提出了更高的要求。

实施过程/解决方案

1、风险预警模型开发方法

风险预警模型开发团队基于专家经验和恒丰银行业务现状,论证、总结出一套有效的模型分析方法论,如下图:

通过结合已有专家模型,分析已发生风险事件、业务提出的监测业务场景需求、接入系统现有业务场景,整理并分析出各个业务场景的各个风险点,形成初步的风险监测模型定义,模型数量达到了2000多个。

建立模型分析跟踪矩阵表,对模型分析过程进行跟踪记录,跟踪表的要素如下图所示:

模型开发团队以风险类别和数据表现为突破口,对这120个风险监测预警模型进行分类实施:高频低危的风险点的模型,采用传统T+1进行监测;低频高危的风险点模型,采用准实时性监测预警策略。充分发挥大数据平台优秀的存储能力和计算能力,分类开发了“准实时业务监测”、“T+1日业务监测”监测预警模型。

模型开发团队将在后续第二、三期项目中,根据模型的执行效果和积累的真实风险预警数据做为样本,调研其他方面的拓展:行为预测模型、模型自动优化(机器学习)及模型关联性探索。

2、技术平台与产品选型

2.1数据服务平台

运营风险监测预警模型基于多个业务系统的海量数据进行组合分析计算,同时需要有海量数据存储能力和数据分析能力的平台提供相应的海量数据查询和分析服务。

系统选择恒丰银行大数据平台数据仓库接入模型计算涉及的业务系统的数据,并使用恒丰银行大数据基础服务平台提供的数据查询和分析服务,可以更好的支持各类型海量业务数据的存储、加工、使用和数据价值提炼。

2.2实时流数据处理技术

准实时风险监测预警模型基于实时交易流水进行监测计算,实时流数据的接入、采集、分发、加工处理过程需要有相应的实现技术进行实现。恒丰银行基于大数据平台中的流数据处理平台建设有实时流处理平台,该平台实现包括实时数据采集、数据分发、流数据的接收处理、处理结果的分析挖掘等过程。

选择实时流处理平台为准实时监测预警模型的计算提供实时流数据的接入和加工处理服务。

同时为提高系统对实时数据处理的高并发和吞吐量,系统间实时数据的传输采用队列方式,基于Kafka消息队列服务构建。

2.3实时风险分析器

系统需要有一套支持准实时风险监测预警模型配置管理、发布、模型规则实时计算的的实时风险分析器,以便为准实时风险监测预警模型规则提供高效、高速、准确的实时监测计算能力。

恒丰银行依托大数据平台及其技术,建设有实时智能决策引擎,业务人员可基于全图形化用户界面进行实时监测模型规则的配置、管理和部署,本项目选择实时智能决策引擎做为准实时风险监测预警的实时分析器。

实时智能决策引擎基于高性能分布式内存数据库VoltDB进行实时规则计算时的数据查询和分析,基于开源的Drools规则引擎进行规则的匹配。

2.4应用开发技术和运行架构

运营风险监测系统使用恒丰银行自主研发的Skyline做为应用开发和运行时框架,使用恒丰银行自主研发的Zebra脚本语言和Scala做为主要开发语言。

Skyline是一个异步的、非阻塞的、基于微服务架构的分布式开发和运行框架,其框架设计以异步回调或事件式编程的优势充分利用了线程计算资源极大提升了并发吞吐量。通过服务之间的配置进行组件之间的交互。在微服务软件架构中嵌入Zebra脚本引擎,把复杂的逻辑简单化,进而编写出颗粒度适宜的微服务组件。基于AkkaActor的服务组件将程序向容器化转变,实现设计和部署策略分离的机制,Skyline平台的组件如下图:

通过Skyline构建的运营风险监测系统,可部署于Docker容器,构建出可高效弹性部署的金融应用。

3、按风险监测预警时效划分进行应用体系建设

风险监测预警时效分为T+1日业务监测和准实时业务监测,围绕监测预警时效性划分,进行系统集成架构的设计:

3.1运营风险监测数据集市建设

运营风险监测系统数据集市为T+1日业务监测预警模型计算提供加工后的数据进行查询分析,其主要建设工作为:

大数据平台数据仓库对入仓数据按维度进行分类储存跑批,数据仓库完成跑批之后,运营风险监测系统将数据抽取至数据集市相应的宽表中。

集市宽表加工:由于各交易系统的设计差异化,造成了许多数据在整合时出现不规范的情况,对各系统间数据进行关联查询时容易出现重复查询、复杂查询、高负荷查询等情况。通过建立运营风险监测数据集市,对原系统数据进行整理、汇总成基础宽表,运营风险监测系统及其他运营管理系统可从宽表进行数据分析。

运营风险监测系统数据集市的建设将用于:

运营风险数据分析:以下为基于运营风险监测数据集市的风险数据分析产品图:

各类运营风险监测模型基于运营风险监测数据集市的数据进行分析,产生风险预警信息,通过对风险预警信息的审查处理,产生风险案件。

通过对风险监测数据集市的数据进行分析统计,提取各维度的风险要素,各交易渠道可使用风险要素进行业务操作风险判断,产生风险预警信息。

3.2T+1日业务监测实现

实现T+1日业务监测预警模型的配置管理和发布,T+1日业务监测预警模型规则计算,其作用相当于事后风险分析器。

T+1日业务监测应用主要实现T+1日业务风险监测模型管理、运营风险监测数据集市数据抽取、T+1日风险预警模型规则运算。

T+1日业务风险监测模型管理,包括以下功能模块:

T+1日业务监测数据处理流程如下图:

运营风险监测系统T+1日业务监测应用使用任务调度工具完成从大数据平台数据仓库到运营风险监测数据集市的数据抽取,系统在运营风险监测数据集市完成数据抽取之后,系统使用任务调度工具将模型分配到T+1日业务监测规则引擎。

T+1日业务监测规则引擎完成跑批后,由工作平台将预警数据分配到运营风险监测系统相应用户待办事项中,如用户需联机查看交易对应的影像信息,Http服务将发送处理请求到影像系统进行查看。

3.3准实时业务监测实现

准实时风险业务监测的数据处理流程如下图:

实时流处理平台从APM和核心系统接入实时流处理数据,并进行解析、加工处理后形成监测统一报文,并放入待监测Kafka队列,实时智能决策引擎监听并从待监测Kafka队列中获取统一报文。

根据在实时智能决策引擎上配置的实时风险监测预警模型规则,进行规则匹配计算,预警结果放入到监测结果Kafka队列中,运营风险监测系统的业务管理应用监听监测结果Kafka队列并从队列中获取预警结果,解析预警结果并放入相应的预警单据结果表中,用于后续的单据下发审查处理。

实时智能决策引擎是恒丰银行依托大数据平台及技术,基于自主研发、自主开发模式研发建设。“实时智能决策引擎”不仅具有传统的、市面上的决策引擎的特点和相似功能,但在高可扩展性、灵活性、技术先进性和运营管理便捷性等方面有很大提升。

1)静态变量配置:

即对静态变量进行定义,可用于多个规则定义中做为条件的计算因子,变量在需要时进行变更将减少对规则条件的修改,变量定义页面如下图:

2)数据准备规则配置:

规格的条件定义:可基于规则语言或标准SQL语言实现;规则语言是我们自定义开发实现的,具有规则可视化、业务可理解的特点(例如规则条件为:交易金额大于1000,且卡号包含9999,则规则语言可以写成:[A_交易金额]>1000&&fn.contains([A_卡号],”9999”)),同时规则语言的匹配运算是基于内存中的数据,因此具有匹配速度高效的特点。

对于复杂规则条件的定义或需要复杂事件处理的规则,用户也可以基于SQL方式进行定义,满足不同技能水平的业务规则配置人员和业务场景的需求,SQL的执行基于高性能分布式内存数据VoltDB,对海量数据的查询和分析性能可达到毫秒级;因此规则的运算不管是何种定义,都是基于内存中的计算,其处理性能和传统实现方式相比将是量级的提升。

3)变量计算规则配置:

实现了对业务规则变量和参数化,使得规则执行的结果可做为其他规则的条件的计算因子,其定义页面如下图:

4)监测规则配置:

实现了对风险规则的定义,其定义页面如下图:

5)路由配置

路由为引擎的核心部件;路由的引入,一方面可以定义数据在引擎中的决策流程/路径,另一方面也大大提高了引擎规则匹配的执行效率;路由可根据实际的业务情况进行制定/规划,例如针对每一个业务监测模型可以制定一个监测路由,或者一个监测路由可以针对多个业务监测模型,路由定义页面如下图:

6)部署(路由、规则、静态变量发布)

路由发布后,关联的的规则生成Drools规则文件,并动态发布到集群环境下的实时智能决策引擎封装集成的Drools规则引擎中。

准实时规则定义转换生成的Drools规则文件,以真实的模型配置规则为例:

1)柜员非工作期间发生特殊交易(冲正类交易)

2)异地存取款

结果/效果总结

恒丰银行通过基于大数据平台建设的运营风险监测系统(一期),其效益是可见的:

●提升银行的核心竞争力,有效降低劳动成本

该系统减少操作人员对于数据采集、整合、加工、再整合、汇总等数据处理劳动成本,降低劳动力的使用量,从而节省运营成本。

●改变作业模式、提高作业效率

●严密监控,排查风险隐患

以现有开发的风险监测预警模型为基础,从运营风险监测层面对每天发生的每笔业务数据进行7*24不间断的严密监控,全面排查风险,精准预警,不漏报、不误报,对确认风险及早处理,将银行经济损失降低到最小。

●风险发生呈下降趋势

系统从上线初到一个季度后,对各个已经进行监测的风险点,其风险预警提取数据明显呈下降趋势,风险点预警提取数据最低下降63%,风险点预警提取数据最高下降92%,平均下降幅度达到75%,从而有效规范了柜员操作行为,降低了风险的发生。

企业介绍:

恒丰银行股份有限公司是12家全国性股份制商业银行之一,注册地烟台。

近年来,恒丰银行稳健快速发展。截至2016年末,恒丰银行资产规模已突破1.2万亿元,是2013年末的1.6倍;各项存款余额7682亿元,各项贷款余额4252亿元,均比2013年末翻了一番。2014年至2016年累计利润总额312.17亿元,这三年的累计利润总额为以往26年的累计利润总额;服务组织架构不断完善,分支机构数306家,是2013年末的两倍。

近年来,恒丰银行屡获荣誉。在英国《银行家》杂志发布的“2016全球银行1000强”榜单中排名第143位;在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位;在中国银行业协会发布的“商业银行稳健发展能力‘陀螺(GYROSCOPE)评价体系’”中,综合能力排名位列全国性商业银行第7位,全国性股份制商业银行前三;荣获“2016老百姓最喜欢的股份制商业银行”第二名、“2016年互联网金融创新银行奖”、“2016年最佳网上银行安全奖”、“2016年度创新中国特别奖”等多项荣誉。

欢迎更多大数据企业、大数据爱好者投稿数据猿,来稿请直接投递至:tougao@datayuan.cn

THE END
1.四个“一体化”——构建数智融合时代下的一站式大数据平台一站式大数据平台,旨在通过一个平台即可满足各类业务需求,成为数智融合时代下数据基础设施的发展趋势,并从四个维度向四个“一体化”方向演进:数据架构-湖仓集一体化;数据处理-多模型一体化;数据分析-历史与实时数据一体化;资源管理-多集群应用、资源和数据一体化。 https://www.163.com/tech/article/J5OTS3BR00099BK0_pa11y.html
2.数据闭环研究:自动驾驶3.0阶段,做好端到端,赢取数据掌控权福瑞泰克具备软硬一体平台化开发和量产交付能力,已打通了“规模数据获取-数据处理体系-自动化迭代”的数据闭环链路,其ODIN智能驾驶数智底座支持量产的大规模数据闭环系统,既包括福瑞泰克大规模量产数据基础,也有部署于国家超算中心算力平台,并全面形成了支持算法演进的完整数据闭环体系,可同步完成感知算法的迭代演进与规控https://www.dongchedi.com/article/7262526986319610420
3.国务院办公厅关于印发“互联网+政务服务”技术体系建设指南的通知充分利用国家数据共享交换平台和各地方已有的数据共享交换平台等信息基础设施资源,构建全国政务服务数据共享平台体系。 1.目录与交换体系 (1)目录体系 政务信息资源目录体系是为整合利用各类政务信息资源而建设的信息服务体系。根据业务需求,按照统一的信息资源目录体系标准,对相关政务服务信息资源进行编目,生成政务服务公共信https://www.cac.gov.cn/2017-01/13/c_1120300337_8.htm
4.AI增强型数据管理和分析平台赋能人工智能+物联网一直以来,Kyligence 与微软紧密合作,通过与微软不断深入地合作和技术探索,将 Kyligence AI 增强型数据分析平台构建在 Microsoft Azure 云平台上,结合微软行业领先的商业智能分析工具 Power BI、机器学习、物联网等数据应用,为客户提供端到端的云上智能大数据 OLAP 解决方案。 https://cn.kyligence.io/news/kyligence-on-microsoft-ai-iot-lab-open-day/
5.唯品会:在Flink容器化与平台化上的建设实践作者:王康,唯品会数据平台高级开发工程师 自2017 年起,为保障内部业务在平时和大促期间的平稳运行,唯品会就开始基于 Kubernetes 深入打造高性能、稳定、可靠、易用的实时计算平台,现在的平台支持 Flink、Spark、Storm 等主流框架。 本文将分为五个方面,分享唯品会 Flink 的容器化实践应用以及产品化经验: https://xie.infoq.cn/article/3727e40b362526efdee34d21c
6.62家央企数字化转型路线图打造数字平台,构建“安全可信、开放生态、智慧运营、敏捷高效”平台能力,快速响应业务需求; 收放结合,实现集团数据资产及IT资源的集中管控(收),应用及业务的快速创新(放)。 28 中国节能定调“2022科技创新年” 将2022年确定为集团公司的科技创新年,围绕集团产业链的科技创新来聚焦发力。 https://www.ciicmc.com/nciichr/zyzx96/ldy/zcjd64/871552/index.html
7.北医三院基于“互联网+”的人力资源信息系统应用与创新转型升级后,北医三院建设了全院共享的人事数据平台,成功完成了组织机构、岗位以及各类人员近百万条历史数据的完整迁移,并基于消息模式实现了与院级主数据集成平台的对接。 二、规范的业务应用,实现人事业务流程化、规范化管理 北医三院在系统建设和应用阶段,通过规范的业务应用来驱动数据的动态更新,保证信息的及时性、有https://www.douban.com/note/782334089/
8.什么是应用与数据集成平台应用与数据集成平台ROMAConnect企业在向数字化转型的过程中会面临诸多难题:缺少统一的设备信息集成途径;数据格式多样化,难以传输和集成;缺少与合作伙伴分享数据和后端服务的便捷途径;缺少云上云下跨网络的安全信息通道。ROMA Connect是一个全栈式的应用与数据集成平台,源自华为数字化转型集成实践,https://support.huaweicloud.com/productdesc-roma/what-is-ROMA.html
9.中台是什么——后篇(数据中台?财务中台?自建中台如何做?)据悉,小米数据中台的架构,底层是大数据平台,包括采集、存储、计算,在大数据的基础之上搭建了一系列的应用,如商业分析、数据探索、驾驶舱(管理决策参考)、企业结算、新零售图谱、天弓(类似业务系统)。 有专门的X DATA团队负责数据,在权限管控内,各部门分析人员可直接得到对应的数据并进行数据分析。小米想从业务端沉淀https://maimai.cn/article/detail?fid=1503683863&efid=HY-KeadUM7K482Y9G08eIQ
10.10分钟搭建你的第一个图像识别模型(附步骤代码)机器之心一、什么是图像分类以及它的应用案例 二、设置图像数据结构 三、分解模型建立过程 四、设置问题定义并认识数据 五、建立图像分类模型的步骤 六、开始其他挑战 一、什么是图像分类以及它的应用案例 观察以下图片: 你应该可以马上就认出它——是一俩豪华车。退一步来分析一下你是如何得到这个结论的——你被展示了一https://www.jiqizhixin.com/articles/2019-02-20-9
11.从技术和业务视角,认识数据平台人人都是产品经理本文主要面向读者为互联网行业相关从业人员,期望对企业数据平台有所了解的人群;因篇幅有限,文中所述的主题及相关概念点到为止。 一、什么是数据平台? 数据平台字面的意思是“数据+平台”: 数据:源于业务又作用于业务; 平台:基于数据也服务于数据。 整体看数据平台是由「数据流程」和「业务流程」两大运转主体共同构https://www.woshipm.com/data-analysis/1391920.html
12.虚拟主机是什么虚拟主机详细介绍中小企业、专业门户网站可以使用虚拟主机空间提供数据共享、数据下载服务。对于大型企业来说,可以作为部门级应用平台。 数据库存储平台 可以为中小企业提供数据存储数据功能。由于成本比独立服务器低,安全性高做为小型数据库首选。 选择提供商的注意事项 稳定和速度 https://m.elecfans.com/article/618777.html
13.湾区评论以数相融:深港跨境数据验证平台助力粤港澳大湾区一体化融该平台的建立,不仅是对现有跨境数据交换模式的重大创新,更是响应了国家关于数据跨境流动与合作新途径、新模式的探索需求。 一、什么是“深港跨境数据验证平台”? “深港跨境数据验证平台”本质上是一个创新的数字化基础设施,其功能在于促进深圳与香港之间的数据安全、便捷地跨境验证和流通。通过对区块链技术的创新应用,https://www.thepaper.cn/newsDetail_forward_27309317