博客 DataOps:数据业务的发展前景

DataOps:数据业务的发展前景

   数栈君   发表于 2023-06-15 14:14  267  0
01
数字化时代介绍
企业 IT 发展经历了三个阶段:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4f6840e7ab4c9d04ceca3f94c5f75472..jpg

  • IT 工匠时代,这个时代的系统是割裂的,系统之间相互独立,主要由技术推动。
  • IT 工业化时代,这个时代要求系统之间互相集成,关注系统的流程和管理。这个阶段企业关注点不是一个个孤立的系统和技术,而是一个可以把控系统质量的整套流程。
  • IT 数字化时代,这个时代强调“探索”,关注企业商业模式的变化,强调敏捷的开发方案,所有行为都是以数据为驱动的。
基于这个理念,对应又出现了数字化 1.0 时代,数字化 2.0 时代和数字化3.0 时代。 
  • 数字 1.0 时代:大概在 70 年代,80 年代,数字化只是最简单的文档处理。
  • 数字 2.0 时代:随着新一代的信息处理技术、数据库技术及业务应用的发展,从 90 年代开始到 2010 年左右,以银行业的会计电算化建设、电信业的 BOSS 系统和制造行业的 ERP 为起步标志,逐渐发展出了各种大数据技术和大规模分布式系统,数字化能力也逐渐成为了企业的支撑能力,如同一个人的骨骼和血液。
  • 数字 3.0 时代:2010 年以后,尤其是从 AWS 在 2013 年发布云计算开始,数字化已经成为推动世界进步发展的核心引擎。通过数据,为企业和个人提供了全面的外界感知能力,以及分析及预测的能力,从而大幅度地提升了各行各业进行业务创新,精益生产及市场营销效益。并且未来会通过人工智能,元宇宙,脑机交互,量子计算等将整个世界带入一个数字化的时代。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/11c52d7219ce0789a759f50c417bf66d..jpg

未来是美好的,但我们也遇到了前所未有的挑战,即数据量越来越大,数据类型越来越多,云上数据未来将翻倍,数据训练的模型将替代人们一些简单的工作。由此可见,数据的管理将变得越来越复杂,而我们需要新的组织架构,新的管理手段,新的技术去配合应对数据 3.0 时代带来的挑战。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/de503a0566496884d319344fa14fdb52..jpg

为了处理更大的数据量和不同的数据类型,以及应对数据分析更快更智能的要求,最近十几年来,数据处理和应用的技术的发展突飞猛进。从中心化的数据仓库衍生到复杂的数据技术体系,细分为了多种的数据处理领域,比如机器学习、云数据处理、流式数据处理、离线数据处理、数据统计与数据挖掘。
如图所示,图中各种 Logo 所代表的技术的出现大多数都是在近 10 年内,并且几乎每个月都有新的技术和产品出现,几乎每两年都可以看到技术栈发生一个大的变革,而且由于开源模式的出现,并且各国的数据主权以及技术独立意识的增强,业界已经很难出现过去二三十年那种统一标准化的时代,从而增加了数据从业者的从业门槛和学习复杂度。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c505be6e5593d51d42f8295dcf2d7dd6..jpg

除了数据爆炸,企业对数据部门的诉求在最近的一段时间也产生了很大变化,从更好地管理数据资产转变到更快地产生业务价值。
获得精益化的数据并且快速验证产生和转化出业务价值已经成了企业每个部门的头等大事。数据的使用者也从数据专家(下图中内圈的角色),转化成为新的数据工作者(下图中外圈的角色),包括各个生产线的学科专家,各个业务线的运营人员,以及企业管理者,甚至最终用户, 这些非技术人员。
在这种背景下,需要一个新的数据使用者组织来去支撑整个的数据应用的流程以及数据应用的方式。这个新的组织Data Community 就出现了,其使命就是持续支持数据产生价值,加速业务栈去实现,以及优化生产周期和支撑企业的精益化运营。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/aa33a36b6119ad4bcbbbc3adee2214ba..jpg

自从 2010 年左右 DevOps 出现,这种管理方式彻底改变了整个行业。许多组织开始通过组建跨职能的团队来管理整个开发运维过程,大家可以看到各种 Ops 层出不穷,包括 DEV-OPS, SEC-OPS, GIT-OPS, NET-OPS, IT-OPS。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b2a75859be0fc6a80dcae85e11033b8f..jpg

就如同 DevOps 出现的目的是使部署过程更加顺畅一样。DataOps 出现的初衷是解决在运维、开发、数据处理和分析这四个常见的团队之间发生的摩擦和问题,提升数据处理的效率。
举一个最简单的场景,让我们看一下数据在流动的时候会发生什么。首先大量的数据会通过客户与应用系统或者程序的交互来产生,程序会将数据存储在不同的数据库里,分析团队会根据这些来自不同应用程序的数据库,构建 ETL,数据工程师会将原始数据包括合并的数据集整合到数据仓库中,之后数据工程师也会为业务用户去构建报表和仪表盘来协助用户做出决策,这个阶段甚至是由用户自己来独立完成。再之后数据科学家会利用这些海量数据去建立模型并用新的用户数据去进行预测,而软件工程师会将预测结果转化成一个服务呈现给客户,这样不断地循环往复。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e58675c51b3fc8dd8f3c246d36c0e8dc..jpg

这样就涉及到了运维、开发、数据处理、分析这四个团队, 由于数据使用的模式很混乱且复杂,团队之间往往会产生大量的摩擦。在这种情况下,各种以数据为中心的使用团体会站在一起,而各种以数据为中心的 Ops 也会应运而生。比如 DataOps、MLOps、AIOps,其中 DataOps 覆盖了软件开发、数据工程、数据科学处理和数据分析这四个主要的 IT 能力,并且贯穿了数据的整个生命周期,是既 DevOps 之后,最重要的 Ops 能力:
随着企业对于数据分析和利用的需求不断增长,数据来源的不断增多,数据技术的愈加复杂,同时参与数据工作的团队和角色越来越多,数据的开发的工作量也越来越大,而且时间上又要求周期短质量高,因此需要数据团队能够持续地优化数据开发的流程。所以在这个阶段借鉴和应用了 DevOps 和精益管理的方法,形成了 DataOps 的方法和实践,通过让数据在企业内部快速流动来服务数据分析和业务运营, 其三个最主要的特性是敏捷,DevOps 和精益化生产。通过数据流产生价值流,并贯穿于整个 DataOps 的全生命周期。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/98a16c3b42e2467c9a052a6ffce2e917..jpg

DataOps 的概念最早出现于 2014 年,在 2018 年被 Gartner 纳入到了技术成熟度曲线中,这标志着 DataOps 正式开始被业界所接受。DataOps 是包括人、流程和技术的一整套体系,其中包括用来管理的代码工具、技术架构和数据本身,从而实现它的三个核心功能:将 DevOps 的敏捷开发和持续集成应用到数据领域;优化和改进数据管理者和数据消费者的协作;持续交付数据流水线。
比较典型的一个 Dataops 的框架会包含一个典型的数据流水线,也称为数据管道。数据流水线是将不同的源数据分为数据的采集,数据的工程和数据分析这个三阶段来进行处理。每一条流水线都代表一个数据供应链,以优化和丰富数据,从而提供给各位用户和程序来使用,不同的数据流水线会服务于不同的业务场景。
左图的下方是一些技术点和工具集,上方是数据处理的流程,单向的数据技术固然很重要,但把这些技术协调整合起来的数据处理流程其实更能体现出来 Dataops 的价值,Dataops 的核心和灵魂也是在于编排和调度。整个数据在管道里面的流动,数据的移动、处理或完善,有着众多依赖关系,一个优秀的数据编排工具可以调动数据开发项目中的所有四个部分,包括代码、数据、技术工具和技术架构。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c0e4c01cbc8ead29cb8807c300b3b01e..jpg

02

DataOps 的不同技术栈及定位

1. Data Fabric
历史最悠久的一类数据架构叫 Data Fabric,它是把数据管理系统和应用程序编织在一起,这种服务会涵盖整个数据集成、访问、转换、建模、可视化、治理和交付。
为了在这些所有不同的服务之间提供连接,Data Fabric 提供了包含链接到各种数据生态系统工具的连接器,把很多各种复杂的功能连接到一起,使用抽象的方式,将碎片化的数据视图统一,利用增强数据目录激活元数据,通过数据市场和数据编排等功能,为消费者提供数据并推动更广泛的数据服务。
Data Fabric 特点是将复杂的数据场景抽象化,统一了跨环境的数据管理,依靠主动元数据为数据集成、分析提出建议和智能决策。
2. Data Mesh
第二类是在 2017 年左右提出的一个概念叫 Data Mesh。Data Meh 的提出是因为看到随着数据源和数据消费者数量增加,需要连接的 Data Pipeline 也在增加,这导致了下游的数据消费者在使用时,需要很长的时间来等待复杂的数据管道的建立,才能够去得到他们所需要的数据, 而平台的构建和运维的复杂程度也越来越大。所以形成了 Data MarketPlace 的概念, 通过交付基于数据域的 API,来服务整体的数据客户。
DataMesh就是通过聚焦数据使用中的人和流程来构建不同的产品并把它上架到DataMarketPlace里。其中使用了联合治理的模式,如从数据域A和数据域B集成了所有相关连的数据后形成一个黄金的数据组合数据域C,然后把这些黄金数据提交给 Data MarketPlace,对外使用数据 API 提供民主化数据服务,确保数据所有权不会成为数据流通、整合、消费的壁垒,并使用分布式架构保证系统能力的平滑扩展。
3. Modern Data Stack

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/495305047b297cd4dcd069b6498a4c97..jpg

Modern Data Stack 是通过数据湖仓去汇聚、处理和资产化各类数据,并且通过它的数据集成能力、同步能力、数据质量能力,以及 AI 提供的数据智能推荐的能力,使得业务人员和技术人员能够快速的建立和链接各种数据源,并能够在分析平台中自我服务,为数据的分析和自服务提供了充分的敏捷性和灵活性。
Modern Data Stack 并不是一个技术,而是在构成云原生平台的一组技术,它的主要的特点就是基于原生的全套的服务组件,而且是以云数仓,云数据湖为核心的。整个的技术是以低代码和持续性的 CI/CD 作为框架的。与传统的数据平台进行对比,其使用复杂度会大大降低。
这个技术栈的构成组件不是固定的,但是通常包括:
  • 一个云端的数据仓库,比如  Snowflake, Redshift, BigQuery 或者 Delta Lake
  • 一个数据集成服务,比如 Fivetran, Airbtye 或者  SeaTunnel
  • 一个 数据转换工具,比如 dbt
  • 一个反向 ETL 工具,比如 Hightouch
  • 一个全栈调度平台,比如 DolphinScheduler
它们组成了 Modern Data Stack 一个完整体系架构,同时它是一个以DataOps 为核心且关注灵活自服务的技术体系。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/083b2b6ecdfa8d1c4f1df215b7fd8305..jpg

回顾上面说过的三种主要的数据架构,可以发现几个共性特征,这些共性特征也是现代数据管理的关键能力,即:
  • 符合规范的组织和流程
  • DataOps 技术体系
  • 云原生的技术架构
  • 人工智能/ML 驱动的
  • 自动化 CICD(部署、对接、优化、服务)
  • 全局性的数据治理和隐私计算
03
DataOps 在各行业的应用
Dataops 是现代化技术栈的核心一点,接下来介绍 Dataops 在各个行业的应用。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d360ab9d30cd811e5c510fa9fe38f9ef..jpg

DataOps 在实践中更强调数据流向价值流的转变的管理,因此 DataOps 中数据流的设计,主要关注数据如何流动,从哪里来,去哪里使用。有了数据流,还需要有价值流,价值流的设计需要依照业务流程,梳理哪些价值点对业务流程有关键作用,哪些数据在这些业务关键价值点中。为了保证数据模型包括数据流价值流的设计的统一和顺畅,整个的架构需要定义一套标准和规范。
从入栈交互开始,收集到的各种数据进入到各个系统,并通过 Dataops数据平台,去交付给各个下游,比如业务运用,AI 算法和业务分析去使用。这需要具备支撑各个平台的能力,提供基本的连接性,管理能力,智能的元数据驱动的,时延的数据集成能力,数据发现,数据资产化的能力和 AI 自动化的能力,以及数据质量和数据治理能力,并且形成数据的 360 度物化视图从而帮助客户快速关联和理解主数据。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7f58887fb07f229d62a6c9d14fab7f63..jpg

构建在新一代云原生数据计算和存储能力之上的 DataOps 引擎承担了资源和任务的调度以及数据同步和计算的核心功能,通过它强大的数据集成和数据质量的能力以及所涵盖的 AI/ML 提供的数据推荐能力,使上层的业务人员能够快速地运行并连接各种数据源然后在适当的数据分析平台中自服务,为整个数据平台的分析和自服务提供了敏捷性和灵活性。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f95a6d87eac7cd221945abbd832e7859..jpg

整个白鲸开源的 WhaleOps 商业产品就是一个典型的 Modern Data Stack 的技术栈,将 MBS 中的核心的全栈调度能力整合到一起形成一整套的云原生的商业套件,涵盖数据的智能调度、数据同步、数据转换、数据质量和元数据以及数据治理这六大类的功能。
WhaleOps 产品在一个完整的数据使用场景中是如何发挥作用?首先对流式数据、快数据进行数据同步以及数据处理,然后对外提供 API 提供给实时的分析报表或展现的一些工具去使用,同时也会存副本到数据仓库和数据湖,也可以接入一些传统的数据模式。另外可以通过融合的数据中心迁移到云端对外进行服务,也可以把数据推送到一些分析报表展现的平台去使用。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8cd50a09aa735ac7fb5b3f30b598a302..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4fb2740408b1de78c472aec03570d74f..jpg

首先看一下在金融行业的运用场景,以银行为例。客户经常出现疲于应对各种紧急复杂的需求,包括数据来源异构等数据管理难点,需要来去提升整个快速响应,快速提供数据服务的能力,同时需要全链路的任务调度并完善运维机制去提升数据服务的使用效率。白鲸开源的 WhaleOps 平台配合了多样化的大数据套件来实现统一的数据开发平台,统一的分布式数据模型,统一的数据资产,同时提供包括离线数据处理,实时流数据处理的任务,并且高效地管理这些数据任务,去降低用户数据加工处理的复杂度及成本,为各种应用场景提供更好的数据服务。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ad811f2bb775552a7b8e30bbc3bfbdce..jpg

制造行业会采用很多的云边端的技术,来提升对产线的监控管理,提供物料以及提供订单的智能化精益生产的服务。因此很多客户会在整体架构中搭建一套轻量级的数据治理平台,来缩短物料的预测,物料的运输,指导流程监控,生产指导开发周期和售后服务的整体的时间。轻量级的数据治理平台里面主要会包含两个部分:
第一部分是轻量化的数据湖平台,主要是针对工业场景来进行数据的采集存储以及在边端云端进行轻量化的处理,它会涵盖所有的批处理和流处理的应用场景,并且需要有多维度数据建模的能力,来去实现工业数据的融合,并且将所有计算完的数据提供给后台的大数据中心和第三方的一些应用,通过数据服务 API 给到第三方应用进行运用。
第二部分是要建立一个可视化的数据开发平台以提供数据开发,数据管理,数据质量等数据服务能力。很多客户会采用白鲸开源的 WhaleOps 产品建设边端轻量化数据湖和后端数据可视化开发平台。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fb87051515a03d299757af3b223a2c87..jpg

众所周知电信行业的数据量是非常大的, 这个案例中的客户拥有数百 PB 级的数据吞吐能力和统一的数据服务能力的数据中心。整个数据中心的数据量超过了 100PB,当然数据量并不是越大越好,数据本身是有成本的,因此客户也希望数据的成本和数据价值达到一个平衡点。数据管理中心沉淀了海量的计算能力、存储能力和收集能力,这也导致了客户面临着计算存储资源不平衡的问题。
客户采用了 Whale Ops 平台提升资源的智能调度,最大化利用能力共享,解决了计算存储资源不平衡的问题。在 Whale Ops 的数据服务基础上,客户对外提供的数据服务能力包含了六大类 30 多种,整体涉及到的集群数量差不多有 437 个。在大数据云平台每月执行的 MR/Spark 数据任务约有 16 万个,实时的数据调度任务差不多 15,000 个,而 Whale Ops 平台在高压状态下承受住了压力并且提供了完善的数据服务。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2258211d6cee1b27f1499d84ac5be2b5..jpg

公共服务行业的应用场景,上图是客户要建立的一个新型电力系统的数据技术支撑体系,整个支撑体系分为三区四层, 三区包括生产控制大区,管理信息大区,互联网大区,另外包含采、传、存、用这四层。所以在支撑体系中需要明确控制系统和信息系统的边界,同时优化数据采、传、存、用四个环节。
这种新型的电力系统各个环节的感知能力和连接能力,实现感知设备的共建共享,同时打造企业级的实时的测量中心,在线汇聚全链路采集的数据,来推动各个业务的贯通和灵活构建,还实现设备透明化,数据透明化和应用透明化。因此在这个项目中,WhaleOps 在帮助客户实时地汇聚全环节所采集的数据,以方便电网资源的维护,同时通过数字系统的实时计算推演和分析,来实现电网在数字空间的实时动态呈现,以建立一个能源的大数据中心,并且接入很多第三方的外部数据来统一支撑全球能源互联网的日常管理和交易等业务的开展。 
DataOps 的价值体现如下图所示:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/83e4143358bcfb6ba52dd18feec92d56..jpg

总结一下,DataOps 技术满足了数字化时代企业管理对于数据管理的三大战略趋势和价值定位。
1. 数据分析民主化
满足了数据分析民主化的战略趋势和定位,这使得数据分析的技术门槛变得更低,数据的使用会更友好,让所有岗位的人员都可以掌握数据分析能力,让数据更容易被发现。逐渐形成一种将数据作为沟通语言,一切决策能力以数据为依据的数据文化。
2. 业务价值的精益化
实现业务价值的精益化,从过去强调数据资产的管理到数据整个应用生命周期的管理来更快地驱动数据流向业务价值。
3. 数据技术多元化
为了支撑更多的应用和需求,DataOps 需要支持所有的场景和数据类型。DataOps 可以帮助我们在数据开发、运维、治理、运营、安全这五大领域发挥出非常大的实用价值。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d3439009269bbf18a68c6641d5ccc146..jpg

结语:
DataOps 不是一成不变的方法论,也不是一个平台或某些工具就能解决和实现的。它需要构建一整套相适应的文化,以及与愿景相符合的组织架构。未来CIO 将像 CHRO 那样担负起文化变革的职责,将 “文化即赋能”作为最主要的工作目标。我们有理由相信,基于 DataOps 数据驱动的企业文化会像润物细无声的春雨一样在企业的数字化转型过程中默默地滋养业务,去萌发业务增长的生命力,去释放数据的力量,驱动企业的快速进步!

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群