博客 数据编织助力银行新一代数据云构建

数据编织助力银行新一代数据云构建

   数栈君   发表于 2023-03-14 17:30  350  0

当今,发展数字经济成为国家战略,数据成为新的生产要素,数字化转型成为银行的必答题,以大数据、云计算、人工智能、区块链、5G等为代表的数字技术蓬勃发展,护航银行数字化转型。云计算应用模式深入普及,银行开始全面拥抱云计算,进一步加速了自身数据生态的演进。本文基于银行数字化转型的背景和“数据编织”理念,提出构建银行新一代企业级数据云,作为银行数据领域的数字化解决方案,以期实现“敏捷、高效、智能”的一体化数据云分析。


一、数据能力是数字化转型的关键


数据是银行运行的“血液”,银行经营也是经营数据。数字化转型本质上是利用数字化的思想、理论、方法和技术实现业务数据化和数据业务化的过程。数据驱动、数据技术以及数据能力,包括数据架构、数据治理、数据分析、数据共享以及安全保护等,是银行数字化转型的关键。


在数据驱动模式下,数据中台体系能力建设是银行强化数据能力较为常见的选择。银行长期电子化、信息化积累的业务数据系统林立,基于Hadoop开源技术(例如Hive、Spark、Flink等)及MPP架构产品(例如GaussDB、HashData等)建设的大数据服务平台,汇聚相关业务系统数据和外部数据,基本提供了集中共享的一站式数据分析服务,满足风险防控、客户管理、精准营销、管理会计、监管报送等各类决策分析和业务运营场景的需要;同时也为银行数据治理工作、数据资产管理以及人工智能应用提供了基础支撑。


尽管当前银行数据能力建设取得重大进展,但全面数字化转型仍面临较多难题:


  • 一是数据孤岛普遍客观存在。在长期的信息化建设过程中,银行建设了数百个数据信息系统,每天产生大量的数据,也造成了数据孤岛。


  • 二是数据库类型及表结构不同。信息系统根据业务需要建设,数据库类型选用、表结构设计各不相同,外部合作数据更是如此。


  • 三是数据分析形态日趋复杂。数据分析从以结构化业务数据为主拓展到文件、音频、视频、图像等多样化数据。


  • 四是数据时效性挑战。实时风控营销日益受到关注,常规批量模式难以支撑。


  • 五是单一数据平台难以支撑。数据具有大规模、多样性、高速性等特点,目前没有单一技术平台可以全部满足并能提供集中共享的一站式数据服务。


  • 六是全域信息集中管理乏力。“数据宝藏”挖掘需要实时目录信息指引数据分析师找到并理解所需的数据。


  • 七是数据技术丰富多样,协同使用门槛较高。例如,一个客户洞察课题,可能需要用到MPP/MySQL关系型数据库、Hadoop技术组件(Hive、Impala等)、数据湖Put/Get、SAS/Python分析建模、知识图谱或客户标签API调用、BI可视化展现等技术,最后的课题成果资产化封装还要综合考虑架构、性能、时效、运维、管理等因素。分析过程跨越多种平台技术,无形之中提高了使用门槛,增加了人力时间成本,并限制了单兵作战能力。


  • 八是监管趋严,如何守住安全合规底线是一大挑战。数据生态日益复杂化,监管政策逐步精细化,数据质量、数据标准、数据安全等数据治理工作难度大幅增加。


在银行数字化转型的浪潮下,科技的碎片化供给与业务全面数字化之间的矛盾仍然突出,现有数据生态环境构建方式已难以有效满足业务飞速发展的需要。面对竞争激烈、快速变化且不确定性的市场,银行需要使自身数据生态体系、数据供给能力、数据分析能力更加敏捷、高效和有力。


二、云计算加速银行数据生态演变


云计算以其易扩展、高可靠、低成本的特点,支持公有云、私有云、混合云多种部署方式,满足监管要求且技术较为成熟,获得了银行业的认可,成为其全面数字化转型重构数字底座的首选。


对云计算技术的深入应用可加速银行内外数据生态演进。数字化转型本质上要求连接尽可能广泛的数据生态,云计算可以助力银行拓展数据生态,通过云上合作连接更多客户、伙伴和行业。与此同时,云计算的广泛应用,使银行的数据生态日益复杂化,数字化的关键要素“数据”呈现出前所未有的分散、变化和多样性等特征,集成分析管理难度大幅增加。为应对上述挑战,银行相继建设了企业级数据仓库、大数据平台、数据湖等更多数据技术平台,用于满足大规模、多样性、多频次、高时效内外部数据的归集、存储和计算等要求,并通过同城异地多集群保证高可用,在消除孤岛式数据集的同时,导致产生多个更大体量的新孤岛,数据一致性管理、数据时效性流动、数据全面协同分析、集成开发维护工作以及数据治理安全合规将面临更大挑战。


三、数据编织助力银行数据云构建


矛盾是事物发展的动力,扫除障碍即释放生产力。面对数据运用的种种挑战和难题,只有实事求是做好数据顶层规划设计,才能避免陷入发展动力不足的困境。尽管按需“点对点”集成、引入多个数据平台可以在一定程度上满足需求、缓解矛盾,但因其长期维护较复杂、高成本而不可持续,无法满足银行数据管理高质量发展的要求。银行数据管理急需一种能弥合数据孤岛的新数字化解决方案,可以适应数据规模高速增长的架构体系,支持企业全域数据资源如水、电一样按需使用,同时满足安全合规治理要求,即“数据云”方案。数据编织(Data Fabric,又称“数据经纬”)理念恰逢其时出现,为银行“数据云”构建提供了新的思路。


1.何为数据编织

Gartner、Forrester、IBM等IT专业咨询公司和业内领先数据软件厂商虽然对数据编织有不同的定义、解读和表述,但也有共通的认识。简单地说,数据编织不是一种数据分析方法,也不是一个软件技术产品,而是一种新的数据组织管理和数据架构设计理念,旨在通过现代信息技术、元数据构建和人工智能动态协调分布式多样的数据源,以提供广泛的数据集成、完整的数据管理和灵活的整合分析能力,支持全面的数据、业务、客户和趋势洞察。具体来说,数据编织至少要完成以下四项工作。


一是建立企业级数据目录。通过统一的数据模型管理和全面的元数据采集,构建和维护企业数据目录和语义信息模型,并充分运用知识图谱和人工智能增强集成设计和需求交付能力。


二是数据实现虚拟链接。众多、分散、异构的数据源通过标准的、松耦合数据链接实现访问集成,也就是将一个个独立且可信的数据集编入一个大的数据网,全网数据支持单独访问和整合关联分析。


三是流程自动化与智能化。涉及企业数据目录、语义信息模型构建和维护实现自动化,用户搜索智能推荐,数据访问通过智能编排实现最小数据移动。


四是统一的安全隐私策略。自动部署执行企业统一的数据使用和隐私保护策略,并支持全面的数据治理。


2.数据编织的意义

自2021年起,Gartner连续两年将数据编织列为可加速提升企业数字化能力并推动企业成长的重要战略技术之一,并在2022年将其放至首位。Gartner预测,到2024年,数据编织部署将为数据利用效率带来4倍提升。Gartner认为,企业即使完成数据编织核心功能部署,也将为其带来可观的收益。数据编织带来的收益主要体现在如下四个方面:


一是提升数据用户体验,加速数据交付供给。企业全域数据目录的建立,以及语义搜索、知识图谱、NLP等AI技术的应用,让用户便捷、快速地获取丰富、可信、高质量的数据,将更多的时间聚焦于业务场景和数据分析,而不是寻找和鉴别数据上。


二是简化集成分析模式,解决数据孤岛问题。企业通过虚拟数据链接方式将分散、动态、多样的数据源有机连接在一起,打破了数据间无法整合及关联分析的壁垒,数据仍旧在其原来的地方,无需开发部署ETL作业就能探查访问。随着新数据源快速纳入体系与全流程智能化演进,数据编织的体系规模与用户体验将不断提升,避免了数据因存储于不同环境而引起的访问限制,有效消除了数据孤岛。同时,集成方式的变化使得同一数据副本大幅减少,降低了数据存储、维护和管理的成本。


三是助力全面数据治理,强化安全隐私保护。数据编织有助于企业实现全面数据治理、统一的访问控制和隐私保护策略,确保在数据分析应用过程中风险可控,满足监管要求,避免隐私数据泄露。


四是洞察用户数据需要,构建智慧用数社区。通过记录用户数据访问足迹,洞察其数据使用情况、组合偏好和访问规律,一方面能够发现更多业务应用合作分享机会,促进数据更加深入运用;另一方面可以主动推荐或自动优化数据分布、流向和共性沉淀,减少数据大规模跨区域、跨系统频繁流动,提升用户访问效率,并降低整体硬件资源开销。


四、数据编织开启数据云分析时代


在大数据和云计算飞速发展的背景下,数据编织作为新的数据架构设计理念,因其灵活、高效和普适性等特点,得到越来越广泛的认可。基于该理念构建企业新一代“数据云”,可以重塑银行数据类系统架构和数据服务应用体系,有效解决银行数据能力建设及全面数字化转型中面临的诸多难题。数据编织理念落地,不是简单地采购部署几个产品,更不是全部替换现有系统、平台和技术,而是通过标准接口和组装方式将银行现有系统或功能纳入整个体系之中,更加注重技术能力组件化、组件融合一体化服务和应用。笔者团队从数据平台建设实践、数据运用痛点以及数字化运营理念出发,结合未来“数据云”的设想,提出了银行一体化数据云分析平台的原型(如图1所示),以及以此为中心的银行数据服务领域的数字化运营体系(如图2所示)。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3255eb21657269f0afbade6a3dc0a1a5..jpg

图1 银行一体化数据云分析平台原型


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/211182597906c3e163750e5265520ae9..jpg

图2 基于数据编织的数字化运营体系


银行一体化数据云分析平台原型的核心思想是“组装式分析,社区式体验,更低的门槛、更强的能力、更好的体验”——整合企业技术能力组件,降低数据使用和AI建模门槛,加快数据分析过程,简化数据运维管理,提升数据分析师单兵作战能力,深度挖掘数据潜在价值,激发数据资源活力和潜能。该原型由数据目录与数据地图、数据安全管理、数据计算模块和系统管理等多个模块组成。用户仅需通过前端入口访问,即可随时随地开启数据云分析,数据即时可用,探查范围可灵活拓展,无需沟通和等待便可开展数据探查与分析。该原型嵌入AI、知识图谱、NLP等前沿技术及算法,实现了智能化数据治理,完成数据资产快速录入,全面掌握元数据信息。AI赋能数据推荐,用户所需数据信息精准呈现。数据可视化、统一SQL语法与图形化工作台等组件,最大限度地降低了数据分析的复杂性,帮助用户更快地挖掘数据价值,体验更加友好。该原型内置元数据分类分级标注引擎与用户权限分级管理机制,落实企业数据使用和隐私保护策略,将数据访问控制到“最小可用”;基于实时查询解析对敏感信息进行同态加密或脱敏处理,实现敏感数据“可用而不可见”,降低数据被滥用或被误解的风险。数据跨平台或区域访问,通过基于代价的模型智能决策路由,就近计算,并可结合共享计算集群提升加速查询响应时效。此外,该原型内置自主分析组件,记录数据访问日志,在满足审计需要求的同时,引导优化数据汇聚流向、物理存储分布以及瓶颈短板增强提示,实现最小化数据迁移、副本存储,从而提升高效的数据分析体验。


近日,袋鼠云重磅发布《数据治理行业实践白皮书》,白皮书基于袋鼠云在数据治理领域的8年深厚积累与实践服务经验,从专业视角逐步剖析数据治理难题,阐述数据治理的概念内涵、目标价值、实施路线、保障体系与平台工具,并借助行业实践案例解析,为广大读者提供一种数据治理新思路。

免费获取链接:https://fs80.cn/4w2atu

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d9db668cb2b973f451a80bce6b441c7f..png







免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!



想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:

https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群