问答 数据中台和数据仓库有什么区别?

数据中台和数据仓库有什么区别?

   匿名用户    发布于 2022-12-19 14:47 最新回复 2022-12-19 15:13  来自于   数栈君  582  1

什么是数据中台?什么又是数据仓库,能帮忙解答一下下吗?

1条回答
数栈君
回复于 2022-12-19 15:13

提到数据中台,我们不得不从它的前辈数据仓库说起。数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员提出了商业数据仓库的概念。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和数据流相关的各种问题,特别是多重数据复制带来的高成本问题。

在没有数据仓库的时代,数据分析人员需要收集、清洗、整合来自多个数据源的数据,并为每个决策支持环境做部分数据复制,过程耗时长并且准确率低。在当时的大型企业里,通常是多个决策支持环境独立运作。一方面,由于系统迭代更新快,数据源通常是已经下线的旧业务系统,为数据分析工作增添了难度。另一方面,尽管每个决策分析系统服务于不同的用户,但这些环境经常需要大量相似或者相同的数据,导致数据清洗过程重复且烦琐。在这个发展背景下,数据仓库应运而生。

数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse一书中首次提出了数据仓库的概念。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。这个定义比较复杂并且难以理解,下面我们将它分解开来进行说明。

1. 面向主题

传统的操作型系统是围绕系统的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。数据仓库可以辅助人们分析数据,例如一个公司要分析销售数据,就可以建立一个用于销售的数据仓库,使用这个数据仓库,就可以回答类似“去年谁是我们这款产品的最佳用户”这样的问题。这个场景下的销售,就是一个数据主题,而这种通过划分主题定义数据仓库的能力,使得数据仓库是面向主题的。主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品。

2. 集成

集成的概念与面向主题是密切相关的。还是用销售的例子,假设公司有多条产品线和多种产品销售渠道,而每个产品线都有独立的销售数据库。此时要想从公司层面整体分析销售数据,必须先将多个分散的数据源统一成一致的、无歧义的数据格式,再放置到数据仓库中。因此数据仓库必须能够解决诸如产品命名冲突、计量单位不一致等问题。当完成了这些数据整合工作后,该数据仓库就可称为是集成的。

3. 随时间变化

为了发现业务变化的趋势、存在的问题、新的机会,需要分析大量的历史数据,这与联机事务处理(On-Line Transaction Processing,OLTP)系统形成鲜明的对比。联机事务处理反应的是当前时间点的数据情况,要求高性能、高并发和极短的响应时间,出于这样的需求考虑,联机事务处理系统中一般将数据依照活跃程度分级,把历史数据迁移到归档数据库中。而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数据是怎样的。换句话说,数据仓库中的数据是反映了某一历史时间点的数据快照,这也是术语“随时间变化”的含义。当然,任何一个存储结构都不可能无限扩展,数据也不可能只入不出地永久停留在数据仓库中,它在数据仓库中也有自己的生命周期。到了一定时候,数据会从数据仓库中移除。移除的方式可能是将细节数据汇总后删除、将旧数据转储到大容量介质后再删除或者直接物理删除等。

4. 非易失

非易失指的是一旦进入数据仓库中,数据就不应该再有改变。操作型环境中的数据一般都会频繁更新,而在数据仓库环境中一般不进行数据更新。当改变的操作型数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。也就是说,数据仓库中的数据基本是静态的。这是一个不难理解的逻辑概念,数据仓库就是要根据曾经发生的事件进行分析,如果数据是可修改的,历史分析就没有意义了。

除了以上4个特性,数据仓库还有一个非常重要的概念就是粒度。粒度问题遍布数据仓库结构的各个部分。粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。例如,单个事务是低粒度级别,全部一个月事务的汇总就是高粒度级别。

数据粒度一直是设计数据仓库需要重点思考的问题。在早期的操作型系统中,当细节数据被更新时,总是将其存放在最低粒度级别上。而在数据仓库环境中,通常都不这样做。例如,如果数据被装载进数据仓库的频率是每天一次,那么一天之内的数据更新将被忽略。粒度之所以是设计数据仓库环境的关键问题,是因为它极大地影响了数据仓库的数据量和可以查询的类型。粒度级别越低,数据量越大,查询的细节程度越高,可查询的范围越广泛,反之亦然。

以上4个特性再综合数据粒度的考虑,数据仓库的存储和计算能力就逐步成为了数据仓库的瓶颈。由于传统的数据库设计大部分都是综合OLTP和OLAP(On-Line Analytical Processing)来考虑的,主流的数据库只有Teradata专注于数据仓库的设计,其他数据库(比较常用于数据仓库的有Oracle、DB2、SQL SERVER等)都是综合性数据库,且以满足OLTP需求为优先考虑方向。大数据技术的兴起,正是为了解决这一窘境。

数据中台兴起

中台概念起源于芬兰的小公司Supercell,这家公司仅有不到200名员工,却推出了一系列爆款游戏,年利润高达15亿美元,这家规模很小的公司,设置了一个强大的中台,用以支持众多小团队进行游戏研发。这样一来,各个团队就可以专心创新,不用担心基础又至关重要的技术支撑问题。

2015年,马云带领了阿里巴巴众多高管拜访了Supercell,让他们惊叹的是,年利润15亿美元的Supercell竟然只有不到200人,他们分散作战,每个团队只需要不超过7名员工。团队可以自行决定开发什么产品,并以最快的速度推出公测版。如果用户不欢迎,则迅速放弃,寻找新的方向。

这一点让阿里巴巴集团感受到了中台的强大,也因此受到了启发。接着,阿里巴巴提出了“大中台、小前台”的战略,将组织架构进行了全面的调整,他们将支持类似的业务工作放在中台,让中台担当支撑的工作,让小前台离一线更近,贴切客户,使得业务更新更加快速。从此,中台的概念在中国开始兴起。

接下来的两年里,阿里对数据中台的探索有了一些成果,并逐渐趋于稳定,他们开始对外推广数据中台机制。参与过阿里中台建设的团队也开始寻找一些新的机遇,2017年以来,随着一些企业数据中台成功案例的发布,国内很多企业开始花大力气探索和建设数据中台,研究建设数据中台的价值所在,以及如何建设数据中台,为企业数字化转型赋能。

那么,什么是数据中台呢?

总的来说,数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

全国首个数据中台标准《数据中台 元数据规范》中指出,数据中台是一套通过产品技术、解决方案、规范标准、团队组织的整合,实现数据汇聚、治理、运营的架构。

从数据中台的进化过程来说,它是数据仓库的下一代产物,也是业务和技术发展成熟的必然要求。一方面,建设数据仓库,解决了企业历史数据的存储问题,但是随着企业的发展和数据的急速膨胀,数据仓库变得臃肿低效,缺乏灵活性。另一方面,大数据技术的发展大大提升了数据处理能力,让高效、敏捷的数据开发变得可能,让数据服务成为可能。同时,随着AI技术的发展和人们理念的升级,传统的BI已经不能满足数据分析的需求,我们需要把数据仓库存储的大量数据盘活、让数据发挥效能,产生价值。

与数据仓库相比,数据中台主要有以下变化。

1.敏捷化

传统的数据仓库倾向于大而全,因此实施成本高、周期长,同时因为架构复杂、层级较多,所以对新业务的适应能力弱。银行业是数据仓库应用较早,也是最普遍的行业。银行业基于监管要求和业务特殊性,比其他行业更早的认识到了数据的重要性。一般的银行数据仓库的建设周期都在一年以上,数据模型在3到6层,整个批处理链条很长,通常在4到6个小时。一方面,由于数据仓库的数据覆盖面全,导致新上线系统的数据接入变得复杂;另一方面,数据模型层级的增加,也给数据仓库接口的改造造成困扰,因此通常一个数据仓库在其上线之初是最稳定、最合理的架构。后期随着业务的变迁和需求的不断增多,系统变得杂乱无章。

也正是看到了数据仓库的笨重,数据中台开始走向敏捷化。

2.标准化

建立数据中台的目标是融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事务为主的主题域,比如用户主题域、商品主题域、渠道主题域、门店主题域等。数据中台遵循三个One的原则:One Data、One ID、One Service,即数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。而传统的数仓主要用来做BI的报表,功能很单一,只抽取和清洗该相关分析报表用到基础数据。要新增一张报表,就要从底层到上层再完整执行一次全套流程。

3.平台化

在数据中台的建设过程中,更加注重平台能力。在数据接入方面,数据接口会更加标准化、配置化,简化数据接入的门槛,提升数据接入的效率。在数据管理方面,更加注重集成平台的建设,包括数据治理、调度管理、元数据管理、数据服务等功能的实现。在数据应用方面,建立在数据中台上的数据应用不仅面向BI报表,更多面向营销推荐、用户画像、AI决策分析、风险评估等,而且这些应用的特点是需求变化快,因此开发必须平台化,便于快速迭代。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/answer/b423330ab07ca11a6b4f027838d3bdf9..png

4.数据来源多样化

数据中台的数据来源期望是全域数据包括业务数据库、日志数据、埋点数据、爬虫数据、外部数据等。数据可以是结构化数据或者非结构化数据,而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。

业务对数据实时性的要求越来越高,数据来源也逐步由隔日批量抽取向实时流式计算迈进。实时同步技术把数据的批处理变成了流水线作业,每发生一条业务(或者在一定时间范围内触发)进行一次批处理。实时数据一般由Flink引擎完成数据计算,批处理一般有Hive on Spark完成数据计算。

总结而言,数据中台是数据仓库的升级版,比数据仓库更敏捷、更高效。不过,数据中台的建设不是一蹴而就的,其建设路径及难度跟企业数字化变革驱动力、行业背景直接相关,与企业原有机制的融合是一个长期的过程,其建设成本在百万元以上,建设周期更是以年为单位计算。整个数据中台的建设没有一个通用的企业级模型套用,一般需要从顶层设计出发,自上而下贯彻。根据企业自身的业务目标逐级建设,优先从小场景领域内开始试点,逐步纳入更多的业务模块,以达到企业数字能力的逐级进化和价值的持续叠加。此外,在数据中台的建设过程中,企业需要培养自身的数据管理团队,甚至重构整个IT团队,以提高数据服务和企业数字化运营的能力。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/answer/53130d8f05f10037d2b0519e949f8a63..png

袋鼠云在数据中台领域深耕7年,拥有丰富的数据中台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0 0
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群