博客 什么是数据中台?数据中台的特点是什么?

什么是数据中台?数据中台的特点是什么?

   数栈君   发表于 2023-06-01 17:00  223  0

我们可以简单地认为数据中台是由AI驱动,在数据仓库的基础上运用大数据技术实现的敏捷数据服务平台。

 与数据仓库相比,数据中台主要有以下变化。

1.敏捷化

传统的数据仓库倾向于大而全,因此实施成本高、周期长,同时因为架构复杂、层级较多,所以对新业务的适应能力弱。笔者曾长期在银行业从事管理会计数据集市的建设,经历和见证了诸多数据仓库的问题。银行业是数据仓库应用较早,也是最普遍的行业。银行业基于监管要求和业务特殊性,比其他行业更早的认识到了数据的重要性。一般的银行数据仓库的建设周期都在一年以上,数据模型在36层,整个批处理链条很长,通常在46个小时。一方面,由于数据仓库的数据覆盖面全,导致新上线系统的数据接入变得复杂;另一方面,数据模型层级的增加,也给数据仓库接口的改造造成困扰,因此通常一个数据仓库在其上线之初是最稳定、最合理的架构。后期随着业务的变迁和需求的不断增多,系统变得杂乱无章。

也正是看到了数据仓库的笨重,数据中台开始走向敏捷化。一般的数据中台包括34层,且更加聚焦业务应用场景,而不再是大而全的仓库。

2.标准化

建立数据中台的目标是融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事务为主的主题域,比如用户主题域、商品主题域、渠道主题域、门店主题域等。数据中台遵循三个One的原则:One DataOne IDOne Service,即数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。而传统的数仓主要用来做BI的报表,功能很单一,只抽取和清洗该相关分析报表用到基础数据。要新增一张报表,就要从底层到上层再完整执行一次全套流程。

3.平台化

在数据中台的建设过程中,更加注重平台能力。在数据接入方面,数据接口会更加标准化、配置化,简化数据接入的门槛,提升数据接入的效率。在数据管理方面,更加注重集成平台的建设,包括数据治理、调度管理、元数据管理、数据服务等功能的实现。在数据应用方面,建立在数据中台上的数据应用不仅面向BI报表,更多面向营销推荐、用户画像、AI决策分析、风险评估等,而且这些应用的特点是需求变化快,因此开发必须平台化,便于快速迭代。数据中台能力架构如图1-2所示。

 

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c7075e93b6deb5ece032083bc79199ab..jpg


1-2 数据中台能力架构图

 

4.数据来源多样化

数据中台的数据来源期望是全域数据包括业务数据库、日志数据、埋点数据、爬虫数据、外部数据等。数据可以是结构化数据或者非结构化数据,而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。

业务对数据实时性的要求越来越高,数据来源也逐步由隔日批量抽取向实时流式计算迈进。实时同步技术把数据的批处理变成了流水线作业,每发生一条业务(或者在一定时间范围内触发)进行一次批处理。实时数据一般由Flink引擎完成数据计算,批处理一般有Hive on Spark完成数据计算。图1-3所示是基于Lambda架构的数据中台架构图。

 

 免责申明:


本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack




0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群