一、什么是 DataOps?
1.1 历史
2014年,Lenny Liebmann 最早在《Three Reasons Why DataOps Is Essential for Big Data Success》这篇文章中,提出 DataOps 的概念,它定义了 DataOps 是优化数据科学和运营团队之间协作的一系列实践集。
2015年,Andy Palmer 将这个理念发扬光大,提出了 DataOps 的四个关键构成:数据工程,数据集成,数据安全和数据质量。
2017年,Nexla 的 Jarah Euston 把 DataOps 的核心定义为从数据到价值,这个是首次把 DataOps 和业务价值关联起来的定义。
2018年,Gartner 把 DataOps 纳入到 Data Management 的技术成熟度曲线,标志着 DataOps 正式被业界所接纳并推广起来。
DataOps,即 Data+Op(eration)s,通过构建和增强数据管道的实践和技术,快速满足分析需求和业务需求。DataOps 是包括人,流程和技术的一组体系,用来管理代码,工具,基础架构和数据本身,从而实现三个核心功能:
将 DevOps 的 CI/CD 理念应用到数据领域
优化和改进数据管理者(生产者)和数据消费者的协作
持续交付数据流生产线
1.3 形式
将数据采集、数据集成、数据准备、数据质量与数据安全等基础功能集成,并提供可运维的能力,以提升从数据洞察到价值发现的效率。
“数据负债” -> “数据资产”
DataOps 是数据管理实践新的发展方向,其目标是 数据用户(包括数据管理、数据科学家、业务系统等)能够便利及时地从数据中获取业务价值。
DataOps 类似于 DevOps,强调数据发布的效率和数据团队的整合。
数据的采集、集成和准备
通过可持续的自动化方式对新的数据源和数据管道进行集成、准备、清洗、管控和发布。
利用 CDC 和流处理技术,将数据管道转换成实时流,用于类似实时交互所用到的预测分析。
业务人员使用数据目录和数据准备工具,进行数据的自动发现和自动编排,提高数据利用的便捷性。
利用元数据驱动的开发工具,维护和更新数据管道,在数据源发生变化时保护您的数据流。
提供可信数据
提升服务能力
Dataop 发布了一个 DataOps 宣言,其中包含了 18 项原则,涵盖了文化(不断满足客户)、团队动态(自发组织、每日互动)、技术实践(创建一次性环境)和质量(监控质量和性能)等众多方面。根据宣言,总结出实施 DataOps 时需要遵循的几个原则:
3.1 安全合规
首先,我们需要根据企业的业务属性,确定极为清晰且安全合规的数据隐私和权限管控标准。数据协同使用可以让授权的业务用户和第三方安全合规地使用企业数据,无需担心数据的隐私和泄漏,这是一切后续的基础。否则,就无法真正做到将数据赋能给一线的业务用户。
3.2 快速敏捷
其次,在合规的基础上,将一切围绕数据产生的价值提升到最大,这样才能不错失创收的机会。
3.3 开放协同
将自上而下的描述性指标,转为将数据开放给业务用户,进行自下而上地探索和使用。因为业务用户最了解创新所需要的数据应该如何应用,因此应该最大限度地发挥他们的主观能动性,带来业务创新。
业务用户使用数据去探索,是阶段性的。从只会用excel到看报表再到写SQL直至会用python做数据探索,不同的发展阶段,数据探索的能力也截然不同。而DataOps倡导的是每个人都应当学习去使用数据,数据不是某个人,某个小组的精英才能掌握的能力,它是一种文化。
3.4 自助服务
通过自助式服务,将数据部门从日常数据使用的生命周期管理中解放出来,以提高数据的时效性。并且要计算使用数据资源的成本,让数据资产负债的概念深入人心,而不是将数据资源当成免费的午餐,吃完还要“评头论足”。
3.5 自动智能
让数据部门全身心地投入到对于自动化、智能化数据科技的实践中,以最快地速度满足数据多样性,动态性,质量监控,系统稳定性的底层技术需求(后续会详细描述)。
DataOps 有很多好处,但最重要的是以下四个方面:
4.1 改善协作与沟通
DataOps伴随着文化的变化,促进协作,信任和责任。目标是模糊部门和职能之间的界限,鼓励知识交流,减少冲突,最终提高生产力。
4.2 加快生产时间
速度是 DataOps 的主要驱动力。简化且高度自动化的分析流程的想法有助于快速交付新功能和见解,并减少人工劳动。此外,较短的反馈和测试周期有助于加快对不断变化的业务需求的反应并提高灵活性。
4.3 提高质量和可靠性
定义明确的分析流程可提高速度和健壮性。例如,自动测试和手动测试的多个阶段可防止部署有缺陷的更新。此外,DataOps 还包括监视推出的更改,以识别瓶颈和潜在问题。最后,不同角色的融合有助于在各个阶段协调变更,例如,当数据工程师被告知数据科学家后来遇到的问题时,有助于改善数据清理工作。
4.4 启用自助服务
借助更高的自动化和机器学习算法来简化开发和部署任务,组织需要更少的专家来构建和管理数据和分析任务。具有一定程度的技术知识的业务用户可以自行分析。
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack