新周期、新常态之下,银行业金融机构面临重重挑战
根据银保监会2012~2020年间公布的数字显示,尽管中国商业银行的利润呈稳步上升趋势,但年均增长率已经降低到个位数,且大部分年份都明显低于中国GDP的年增长率。
面对来自经济周期与市场环境的重重挑战,银行业金融机构亟需借鉴新型金融机构的先进数字化经验,实现数字化驱动的经营策略。
根据对银行业金融机构的大量调研,中国领先的产业数字化研究与咨询机构——爱分析发布了《爱分析·中国银行业数字化趋势报告》,面向银行业金融机构的决策层、业务负责人与IT负责人,以专业视角梳理银行业数字化转型的典型场景与业务诉求,并提供策略建议、落地方法论与最佳实践案例,从而推动银行业金融机构数字化转型进程。
袋鼠云至今已成功服务了近百家银行机构,为银行客户提供数字化基础设施建设,搭建数据共享中心。凭借在银行业的杰出服务能力,袋鼠云作为标杆案例入选《爱分析·中国银行业数字化趋势报告》,为银行业数字化转型提供新思路、新蓝图。
袋鼠云数栈“DTinsight”,为某上市银行量身打造“分行数据集市应用云平台”
当前,该银行各分行的业务系统由总行统一搭建,数据也统一存储在总行的数据仓库中,即“数据大集中”。该银行在全国设有40多个分行,每个分行都存在数据分析的需求,分支机构如何去解决在数据上收以后本地数据应用的需求,就成为一个比较严峻的问题。
面对分行的数据分析需求,过去该银行采取的模式是“总行下发、分行建库”,即总行每天在数据仓库中将不同分行的数据进行切分,然后通过网络传输给各个分行,由分行自行建设独立的数据仓库,独立存储、独立运维、独立管理、独立进行数据处理与分析,如下图所示。

“总行下发、分行建库”的模式带来的弊端包括以下五个方面:

1)数据治理压力大
总行具备较为丰富的大数据人才,能够进行完善的数据治理工作。但是,各分行之间的技术能力差异明显,并非所有分行都有完善的大数据架构的开发和运维经验。
因此,技术能力不足的分行承受着较大的数据治理压力。
2)数据存在滞后性
总行需先完成数据提取、数据切分、数据传输、数据载入等多个流程环境,再分别下发数据至各分行,传输链路较长。这带来的问题,一方面是海量数据传输对网络质量要求较高、压力较大,另一方面是数据传输存在滞后性,分行常常在中午或下午才能拿到前一个工作日的数据,数据滞后比较严重,影响分行数据产出时效性。
3)经验成果难共享
过去,各分行一般自行建设或购买BI等数据分析工具,使用的工具在技术、供应商等方面千差万别,使得某些领先的分行研发出的数据分析经验或成果,很难无缝地分享给其他分行。
4)数据质量难保证
由于总行有大量业务系统,而各个分行也有大量独立建设的业务系统,而这些系统间缺乏统一的数据校验、质量保证机制,导致数据进行关联分析的时候,存在大量的“脏数据”,影响数据业务价值的表达。
5)数据安全受挑战
尽管总行有完善的数据安全管理机制,但是一旦将数据下发给分行,就无法对下发到各分行的数据进行持续安全管控,造成了一定的数据安全隐患。
数据中台,开启银行分支机构大数据应用新模式
为了应对这些挑战,该银行总行决定在全行范围内建设“分行数据集市应用云平台”,并选择了袋鼠云作为建设合作伙伴。
袋鼠云成立于2015年11月,核心产品是云原生一站式数据中台PaaS“数栈DTinsight”,并提供数据中台解决方案、数据可视化服务、数据化运维解决方案,致力于全方位帮助客户建设数字化基础设施,实现数字化转型。
基于数栈DTinsight,袋鼠云与该银行围绕分级租户、数据下发、模型构建与加速、可视化分析等方面合作定制开发,打造上线了“数据集市应用云平台”。数栈DTinsight功能模块如下图所示:

1、数据平台化:构建分级租户模式
在数据平台化阶段,该银行首先要解决“总行下发、分行建库”模式带来的总分行、各分行之间的数据共享难题。
为此,袋鼠云与该银行在数据仓库层面进行了联合的定制开发,包括分级租户、数据下发、平台构建、模型构建与OLAP加速、可视化分析等四个部分。
1)分级租户
袋鼠云首先基于Cloudera Impala在银行总行搭建了面向全行的公共数据仓库,并与银行进行联合定制开发,构建了分级租户模式的大数据应用平台。
在定制开发过程中,袋鼠云基于总行公共数据模型表,构建了面向不同级别分行的多租户模式。在这种模式下,分行租户仅能访问被授予权限的功能,比如BI报表、数据API、数据模型等,以及含有本分行自有数据的私有库,如下图所示。

最终,分行仅需访问总行的大数据应用平台,就可以进行权限独立的大数据分析,各分行独立管理,可实现既不会相互干扰,又为未来的共享场景打造基础。
2)租户数据下发
分级租户建设完毕后,当总行有新的公共数据需要下发给分行时,无需再通过数据传输的方式实现,仅仅需要在总行公共数据模型表中,为特定分行创建专属的视图表,而多个视图表构成了可供分行访问的公有库。
但是,各分行仍然拥有私有库,其中的数据则需要分行自行上传并进行开发。
3)模型构建与OLAP加速
所有分行都集中到总行服务器上进行数据分析,对报表分析等OLAP过程的性能提出了极高的要求。
为此,袋鼠云将查询加速引擎Kylin集成到系统中,并且定制开发了与原生Kylin类似的Cube建模页面,帮助该银行IT人员快速建立Cube模型,从而实现OLAP分析的加速。
4)可视化分析
传统的分析报表、可视化大屏缺乏自助式分析能力,使用门槛较高,业务人员的新需求常常需要依靠IT人员进行技术支持。
为此,袋鼠云基于Impala数据仓库、Kylin Cube等开源技术,协助某BI厂商实现了自助式数据集,无需IT人员再重复构建数据模型,从而为业务人员提供低门槛的自助式分析能力。
2、数据资产化:基于数据质量工具,提升数据业务价值
对该银行来说,如果在大数据分析应用中,数据来源的质量无法得到保证,那么数据分析结果的最终价值同样会大打折扣。因此,该银行希望有效地对数据质量进行管理,而这也是数据资产化管理的重要组成部分。
为此,袋鼠云为银行提供了数据质量DataValid产品模块,并与离线开发BatchWorks进行有效协作,帮助银行开发人员在数据抽取、处理过程中,对数据质量进行有效校验,并提供面向业务人员、IT人员的质量管理页面。
比如,银行业务中的一张客户信息表会包含性别、身份证号、年龄等信息,而银行开发人员在使用BatchWorks对交易型数据库中的数据进行抽取时,可利用DataValid对客户信息进行校验,如性别是否符合身份证内容、身份证号格式是否错误、年龄是否超出限定年龄范围等。一旦发现校验失败的数据,平台既可以直接对数据进行过滤、信息补充等操作,也可以在将数据报送监管部门前,向相关人员发出预警出具校验报告后,完成快速数据报送。
3、数据服务化:基于数据共享服务EasyAPI,实现深度业务赋能
银行中,存在客户画像、反欺诈、绩效核算、财务报表等许多业务场景,而这些场景都依托于特定的业务系统。在这些业务系统的开发过程中,为了满足业务人员的需求,开发人员常常需要获取来自数据资产层的数据,并将其集成在业务系统中。
在传统的数据调用方式下,开发人员需要获取特定数据库的权限,并直接调用数据。但是,这种模式存在两点漏洞:第一,无法对数据的取用进行有效管理,难以保证取用过程的标准化与结果的准确性;第二,存在安全漏洞,无法对调用数据的人员的数据使用方式进行权限管理。
相比于从数据库中直接调取数据的模式,通过API的方式向特定业务系统的开发人员开放数据服务,是一种更加标准化、高安全性的数据服务方式。但是,API接口的开发过程仍然需要依靠开发人员,但API接口数量往往很多,且需求随时会发生变化,因此开发成本与周期较高。
因此,袋鼠云为该银行部署了数据共享服务EasyAPI。产品部署后,仅仅在杭州分行,就统一定义和管理了约100个API,每天调用次数超过1万次。
EasyAPI的主要价值有两点:第一,支持无代码开发,采用页面配置的方式快速生成API;第二,提供对API接口的统一管理能力,如API接口限制访问的次数和周期、授权方式等等。
数据应用集市云平台采用当下最前沿的金融大数据技术,结合银行的行业和运营特点,开创性地采用总分联动模式,简化数据开发、数据应用流程,为其带来多方面的价值:
- 首先,减少各分行的软件、硬件采购与运维阶段的重复投入,节约成本;
- 其次,从零散工具升级为数据中台一站式服务,从表/视图的交付模式改为交付“数据集”,减少学习成本,大大提高数据开发效率;
- 再次,数据应用云平台为行内数据应用建设提供技术底座+上层工具,为营销、风控、客户体验等方面的综合效益提升,打下坚实的基础。