博客 DataOps DevOps 什么才是大数据管理实践新范式

DataOps DevOps 什么才是大数据管理实践新范式

   数栈君   发表于 2022-12-09 10:56  510  0

一、什么是 DataOps?

1. 概念

1.1 历史

2014年,Lenny Liebmann 最早在《Three Reasons Why DataOps Is Essential for Big Data Success》这篇文章中,提出 DataOps 的概念,它定义了 DataOps 是优化数据科学和运营团队之间协作的一系列实践集。

2015年,Andy Palmer 将这个理念发扬光大,提出了 DataOps 的四个关键构成:数据工程,数据集成,数据安全和数据质量。 

2017年,Nexla 的 Jarah Euston 把 DataOps 的核心定义为从数据到价值,这个是首次把 DataOps 和业务价值关联起来的定义。 

2018年,Gartner 把 DataOps 纳入到 Data Management 的技术成熟度曲线,标志着 DataOps 正式被业界所接纳并推广起来。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7082eb5dbcf513597f053f7c01ae6e07..jpg


1.2 定义

DataOps,即 Data+Op(eration)s,通过构建和增强数据管道的实践和技术,快速满足分析需求和业务需求。DataOps 是包括人,流程和技术的一组体系,用来管理代码,工具,基础架构和数据本身,从而实现三个核心功能:

  • 将 DevOps 的 CI/CD 理念应用到数据领域

  • 优化和改进数据管理者(生产者)和数据消费者的协作

  • 持续交付数据流生产线

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cfac94fb67a65bdf2e81ca8a576fe507..jpg


1.3 形式

将数据采集、数据集成、数据准备、数据质量与数据安全等基础功能集成,并提供可运维的能力,以提升从数据洞察到价值发现的效率。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f78ffefd21fd9ba88986d3d4b97bef71..jpg


1.4 意义

“数据负债” -> “数据资产” 

DataOps 是数据管理实践新的发展方向,其目标是 数据用户(包括数据管理、数据科学家、业务系统等)能够便利及时地从数据中获取业务价值。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/eea2e5ffe7f52bc23fd1ad79b9f48c88..jpg


2. 内容

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ddb0467c27af1b2302d049d32ecd34a8..jpg


DataOps 类似于 DevOps,强调数据发布的效率和数据团队的整合。

2.1 持续集成

数据的采集、集成和准备

  • 通过可持续的自动化方式对新的数据源和数据管道进行集成、准备、清洗、管控和发布。

  • 利用 CDC 和流处理技术,将数据管道转换成实时流,用于类似实时交互所用到的预测分析。

  • 业务人员使用数据目录和数据准备工具,进行数据的自动发现和自动编排,提高数据利用的便捷性。

  • 利用元数据驱动的开发工具,维护和更新数据管道,在数据源发生变化时保护您的数据流。

2.2 持续交付

提供可信数据

  • 在整个数据管道过程中实施数据治理,从而确保了交付的数据都是可信、安全和受保护的,并满足合规性要求。
  • 通过一个统一的、智能的数据平台将数据治理、数据编目、数据质量及数据保密工作整合在一起,只有这样才能确保所有数据都是可信的和受保护的。
  • 运用人工智能/机器学习技术,助力在整个企业实施数据治理。

2.3 持续部署

提升服务能力

  • 通过部署数据驱动型应用,贯穿数据管道所有阶段的每一个变化,都会被分发给数据使用人员。
  • 实现敏捷性和灵活性,可以采用水平扩展和基于微服务的架构。
  • 运用人工智能和机器学习技术,监测和管理数据管道,使其持续运行,且性能和容量不断优化。

3. 原则

Dataop 发布了一个 DataOps 宣言,其中包含了 18 项原则,涵盖了文化(不断满足客户)、团队动态(自发组织、每日互动)、技术实践(创建一次性环境)和质量(监控质量和性能)等众多方面。根据宣言,总结出实施 DataOps 时需要遵循的几个原则:

3.1 安全合规

首先,我们需要根据企业的业务属性,确定极为清晰且安全合规的数据隐私和权限管控标准。数据协同使用可以让授权的业务用户和第三方安全合规地使用企业数据,无需担心数据的隐私和泄漏,这是一切后续的基础。否则,就无法真正做到将数据赋能给一线的业务用户。

3.2 快速敏捷

其次,在合规的基础上,将一切围绕数据产生的价值提升到最大,这样才能不错失创收的机会。

3.3 开放协同

将自上而下的描述性指标,转为将数据开放给业务用户,进行自下而上地探索和使用。因为业务用户最了解创新所需要的数据应该如何应用,因此应该最大限度地发挥他们的主观能动性,带来业务创新。

业务用户使用数据去探索,是阶段性的。从只会用excel到看报表再到写SQL直至会用python做数据探索,不同的发展阶段,数据探索的能力也截然不同。而DataOps倡导的是每个人都应当学习去使用数据,数据不是某个人,某个小组的精英才能掌握的能力,它是一种文化。

3.4 自助服务

通过自助式服务,将数据部门从日常数据使用的生命周期管理中解放出来,以提高数据的时效性。并且要计算使用数据资源的成本,让数据资产负债的概念深入人心,而不是将数据资源当成免费的午餐,吃完还要“评头论足”。

3.5 自动智能

数据部门全身心地投入到对于自动化、智能化数据科技的实践中,以最快地速度满足数据多样性,动态性,质量监控,系统稳定性的底层技术需求(后续会详细描述)。

4. 作用

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/afb4c1a3e843a77f29496e198577f8ff..jpg

DataOps 有很多好处,但最重要的是以下四个方面:

4.1 改善协作与沟通

DataOps伴随着文化的变化,促进协作,信任和责任。目标是模糊部门和职能之间的界限,鼓励知识交流,减少冲突,最终提高生产力。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3e332c04187bc9528cd6f79975506dcb..jpg

4.2 快生产时间

速度是 DataOps 的主要驱动力。简化且高度自动化的分析流程的想法有助于快速交付新功能和见解,并减少人工劳动。此外,较短的反馈和测试周期有助于加快对不断变化的业务需求的反应并提高灵活性。

4.3 提高质量和可靠性

定义明确的分析流程可提高速度和健壮性。例如,自动测试和手动测试的多个阶段可防止部署有缺陷的更新。此外,DataOps 还包括监视推出的更改,以识别瓶颈和潜在问题。最后,不同角色的融合有助于在各个阶段协调变更,例如,当数据工程师被告知数据科学家后来遇到的问题时,有助于改善数据清理工作。

4.4 启用自助服务

借助更高的自动化和机器学习算法来简化开发和部署任务,组织需要更少的专家来构建和管理数据和分析任务。具有一定程度的技术知识的业务用户可以自行分析。

二、DataOps关键能力


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a85a12d6ed8525570fcbf84bfec6705f..jpg

5. 自动化

5.1 数据实时采集

  • 高效的CDC架构
    • 基于日志的无代理方法
    • 分布式优化
  • 灵活支持多种数据源和目标库
    • RDBMS:Oracle、DB2、MySQL、SQL Server、PostgreSQL、MongoDB
    • 数据仓库:Snowflake、Azure Synapse、Exadata、Teradata、IBM Netezza、Vertical、Pivotal、MS SQL
    • Hadoop:Hive、HBase、
    • 数据湖:Apache Hudi、Apache Iceberg、Delta Lake、AWS Lake Formation
    • 串流平台:Kafka、Confluent

5.2 数据管道构建

  • 数据库表和ETL脚本的生成
    • 批量配置和 Scheme Mapping
  • 数据流灵活编排
    • 低延迟 和 高延迟
    • 批流一体
  • 数据管道试运行
  • 数据集更新到指定目录

5.3 数据质量提升

  • 持续测试和性能监控
  • 动态元数据管理
    • 元数据变化的自动发现、维护和适配
    • 与数据字典、规范检查、权限管控、合规审计等有效联动
  • 数据治理、质量和安全的监控和优化

6. 自助化

6.1 数据的自助探索

  • 数据目录
    • 业务含义 - 库、表、字段
  • 数据专题
    • 业务主题 - 产品、业务、领域
  • 数据地图
    • 数据血缘 - 流程依赖、价值传导、问题回溯、影响分析
    • 价值传递

6.2 服务的自助消费

  • 服务市场
    • 服务发现
    • 服务订阅
    • 服务分享
  • 服务定制
    • 服务生成
    • 服务测试
    • 上线审批
  • 服务运营
    • 服务监控
    • 服务迭代
    • 服务下线


免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!



想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群