DataOps是“数据操作”的缩写,维基百科对 DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps 的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。
在 2018 年 Gartner 发布的《数据管理技术成熟度曲线》报告中,DataOps 的概念被首次提出(图 1)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与 DevOps 的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps 将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。
随着数字化转型的普及和深入,企业生产、营销、运营等各环节中的数据将普遍被采集,数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加。海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战:
数据孤岛阻碍数据的共享与统一
由于企业数字化建设前期认知不足,对缺少整体的系统规划,业务系统分散建设,不同部门数据标准缺乏统一的规范,导致数据解析困难,成本升高。
数据质量低各部门间数据协作困难
数据管理的技术支持不足,导致数据问题发现与整改不及时,无法保证数据质量;数据全生命周期缺少闭环管理,数据管理人员与数据生产者或使用者之间的协同困难,数据应用效能低。
单点自动化难以支撑整体效能提升
尽管企业在数据开发、数据治理等单个环节采购了相关的工具或平台,实现了局部的自动化,然而仅仅能解决表面问题,无法真正解决全局需求。难以建立覆盖所有业务的规范统一、集成互联的数据基础,从根本上消除数据孤岛,实现企业数据集成整合、全面共享应用,提升企业大数据能力。
DataOps作为一种新兴的数据管理方法,强调数据管理自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据成产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。根据国际知名IT机构Gartner预测:“到2025年以DataOps实践和工具为指导的数据工程团队的工作效率将比不使用DataOps的团队高10倍。”
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack