企业数据智能时代的数据中台是什么样的?近来数据中台一词很热,有人问我两个问题:数据中台和数据智能技术系统有何不同?您如何理解数据中台的概念?
根据这两个问题,本文将与您谈谈我们对数据中台的理解,以及与数据智能技术系统的区别。
数据的产生来自我们的产品和服务提供的直接价值。以出租车软件为例,由于APP需要向乘客所在地点周围的司机提供信息,系统需要及时收集司机的位置和乘客状态,以确定是否可以调度,然后将乘客的汽车需求发送到设定参数范围内的可用车辆。司机抢单或配单后,可以接乘客,按导航送到目的地。
在此过程中,乘客的上车位置、下车位置、司机车辆的位置、状态、车辆行驶中的位置信息等数据为出租车这一动作的直接价值服务。
众所周知,我们可以利用这些数千辆车的位置信息,聚合每条道路的交通状况,然后为交通优化提供这些知识。这就是数据的扩展价值,数据的各种价值是数据的选择价值。
比方说,数据的主要价值在被挖掘之后仍然可以不断地给予,它的真实价值就像漂浮在海洋中的冰山,大部分都隐藏在表面之下。资料的选择价值即取之不尽,用之不竭的资料创新成果。这类资料创新并非事先计划好或事先想到的。
那么,为了保证这种创新的可能性,我们需要保存这些数据,而不是在实现直接价值后放弃它们。这也是接下来提到的数据湖的由来。
数据湖的概念是2011年提出的。由于不能追溯丢失的数据,一些大数据制造商在基于Hadoop的技术栈中将组织中产生的原始数据存储在单一系统中。一般来说,人们使用开源Hadoop来构建数据湖,但数据湖的概念比Hadoop更广泛。
看到数据湖,大家一定会想到数据仓库或者数据市场,那么两者有什么区别呢?我们先来看看下图。
数据智能时代的数据中心是什么样的?读完这篇文章,你也可以成为架构师。
资料湖示意
数据湖存储数据源提供的原始数据没有假设数据的形式。每个数据源都可以选择任何形式,最终数据的消费者会根据自己的目的使用数据,这是数据湖区别于数据仓库的一个非常重要的原因。同时,这也是数据仓库不能走得更远的原因,因为数据仓库首先需要考虑数据方案。
数据智能时代的数据中心是什么样的?读完这篇文章,你也可以成为架构师。
资料仓库示意
资料仓库倾向于为所有的分析需求设计一个总体方案来表示,但事实上,即使是一个很小的组织,通过统一的资料模型来覆盖一切,也是不太实用的。此外,资料仓库在使用过程中也会出现资料质量问题:不同的分析需求对资料构成有不同的质量要求和容忍度。资料仓库的这一特点导致了开发周期长,开发成本高,维护成本高,资料丢失等问题。
数据湖直观上更像是一个数据质量差异很大的数据倾倒场。如果只是聚合数据,就意味着会丢失很多数据。数据湖应该包含所有数据,因为你不知道人们什么时候能找到有价值的东西,可能是今天,也可能是未来几年。
数据湖原始数据的复杂性意味着我们可以通过一些方式将数据转化为易于管理的结构,这也可以减少数据的数量,更容易处理。数据湖仍然不应该频繁直接访问,因为数据非常原始,需要很多技巧才能让它有意义。一般可以按照下图处理,我们可以称之为数据湖岸市场。
数据智能时代的数据中心是什么样的?读完这篇文章,你也可以成为架构师。
资料湖岸集市
将所有数据放入湖中的一个关键点是要有一个清晰的控制。每个数据项目都要有清晰的跟踪,以便知道数据来自哪个系统,什么时候产生,即元数据管理、数据血缘和必要的数据安全。
阿里巴巴提出了数据中台的概念。伴随着业务的迅速发展,企业的多条业务线产生了大量的数据,并且数据以不同的形式被收集、存储、处理等。为迅速满足每一个前端业务的需要,企业通常会让前台直接与后台联系。例如,大多数企业的大后台都是财务,最初可能更有效,但随着需求的增加和频繁,沟通成本大大提高,效率大大降低。
数据智能时代的数据中心是什么样的?读完这篇文章,你也可以成为架构师。
与此同时,对一家公司的多项业务而言,即使是看上去很有个性的需求,通过抽象和合并同类项目,我们发现也能形成共同的能力。事实上,对于后台的许多功能,同样可以抽象出来,成为各种业务共享的能力。这能使数据更加灵活、敏捷地服务于前台的各种业务,这就是数据中台的初衷。
对阿里而言,如何更好地将包括自己不同业务的数据、被收购公司的数据等多个数据转化为OneData,再为整个公司的业务服务,也是数据中台的核心目标。
实际上,数据中台的建设和数字化转型一样,实际上也是一个螺旋上升的过程,常常需要根据业务变化的需要不断完善。即使是再宏大的数据中台战略,也要用真实的商业场景去实践,通过小到大的场景不断地锻炼中台。
数据智能时代的数据中心是什么样的?读完这篇文章,你也可以成为架构师。
总而言之,数据中心是练习出来的,也就是说,数据的再利用率决定了数据中心是否成功。一个数据中心的成功意味着许多数据被重复使用。此外,我们需要注意数据安全策略的实施,包括底层数据安全的实现和业务层数据的合规使用。
假如一家公司的数据中台没有与业务中台紧密配合,那么这种纯粹的数据中台蹭热点,效果不大。因此,我们认为,更有价值的中台是业务偏好的数据中台,而非通用的数据中台。这一观点,与前阿里数据委员会主席的车品感一致。
根据以上分析,我们建议公司可以在业务或产品相对单一或数据策略不清楚的情况下建设数据湖,而不是中间平台。从本系列第一篇文章《数据智能时代到来:本质与技术系统要求》的总体介绍来看,我们的数据智能系统与数据中间平台的目标是一致的。
从我们自己的理解来看,数据智能系统和数据中心一样,本质上是以数据为资产,整理企业的元数据和数据血缘关系,然后以这些数据为中心,抽象公共服务的能力。最后,让前端流程的结构和企业稳定的数据公共服务解耦。这样沉淀公共服务能力,即SaaS化这些能力。
数据智能系统或中台最根本的目的是快速支持业务部门的业务创新需求,创造快速服务业务需求的服务能力,尽可能实时处理,最大限度地发挥数据的资产化和价值。
企业数据智能时代的数据中台是什么样的?在我们看来,中台最主要的用户是数据开发人员,包括数据研发人员,数据分析和建模人员。建设中台的目的是提高效率,减少学习曲线,提高数据质量。