博客 数据资产难管理?五大“诀窍”分享给你!

数据资产难管理?五大“诀窍”分享给你!

   数栈君   发表于 2023-01-29 10:48  268  0

数据资产管理的概念非常广,可以做的事情也非常多。企业在考虑立项做数据资产管理或者数据治理的时候,往往不知道从何入手。然后在一众数据治理厂商的概念灌输下,匆匆上马项目,落地后却发现治理前后的改进效果并不大。本文梳理了企业常见的几个数据资产管理痛点和解决方案,大家可以结合企业自身的数据状况对症下药。


01

● 痛点一:元数据分散、缺失,缺少管理工具

随着业务的发展,企业的内部数据越来越多,用户获取数据的成本也越来越大。比如A部门需要调用B部门的数据时,需要先协调B部门的相关人员配合答疑。甚至同部门内入职新员工时,因为没有元数据沉淀,在理解历史数据时需要逐个请教老员工,新人培养成本极大。


● 解决方案:

1.元数据统一采集:采集企业各个部门的元数据信息至同一平台,对数据进行分类管理,然后提供统一的对外查询服务。不需要用户登录各个业务系统或者数据库查询元数据,节省了操作成本的同时又避免了数据泄露的风险。


2.元数据统一管理:能够在数据库中采集到的元数据信息是有限的,光凭这些信息用户可能仍然不足以理解一份数据的含义。这时候我们就可以在采集的基础上,为每份数据维护更多的业务属性信息,最大限度地让数据理解这件事情能够线上自主完成,而不需要线下协调沟通。


3.元数据统一分析:全局的统计分析能够让数据管理人员更好地掌握企业数据状况。并且元数据管理并不是一蹴而就的事情,需要逐步推进完善,这个过程就需要相应的监控分析进行管理。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e12a39928d51d49bfc2556e317bf4416..jpg

02

● 痛点二:缺乏体系化的数据标准建设和应用工具

随着业务的发展,相信很多企业的内部数据越来越多,用户理解数据的成本也越来越大。比如A部门需要调用B部门的数据时,需要先协调B部门的相关人员配合答疑。甚至同部门内入职新员工时,因为没有元数据沉淀,在理解历史数据时需要逐个请教老员工,新人培养成本极大。


● 解决方案:

1.数据标准体系建设:从零开始建设一套完整的数据标准体系非常不容易,如果没有一款线上工具的支撑,线下工作非常难推进。而像金融、制造这些标准化行业,已经存在非常成熟的国标、行标等文件,如果能在这些标准文件的基础上,结合企业自身的特点做些增改,可大大加快建设进度。


2.数据标准的后向应用:完成数据标准体系建设后,我们可以将数据标准和我们历史积累下来的数据进行映射匹配、质量校验,帮助我们发现哪些数据存在标准化问题,然后对应的进行整改。


3.数据标准的前向应用:将数据标准作为我们数据落地的前置条件,具体则可以将数据标准应用在数据建模、ETL等数据开发过程中,让数据落地时即是标准化的。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8c59901436bf3fd0a3002699102f1236..jpg

 

03

● 痛点三:缺乏规范的数据模型管理和落地实施方案

在传统的数据开发过程中,数据开发直接通过写SQL的方式进行建模,虽然非常快速,但是给数据治理留下了非常大的隐患。比如数据标准无法起到强约束的作用,就会出现上文中的数据同名不同义问题;比如模型之间的ER关系无法直观体现,极大地降低了数据开发效率。


● 解决方案:

1.标准化数据建模:在模型主题、模型元素的规范约束下,通过零代码、配置化的方式引用数据标准,完成规范的数据模型建设。然后通过可视化配置的方式,配置模型表之间的关联关系,构建数仓中的星型模型/雪花模型。


2.模型实施场景:通过上诉的标准做法虽然可以构建规范的数据模型,但是相比于直接写SQL会牺牲一定的灵活性和效率。基于我们之前的交付经验,大部分客户愿意在中间做出平衡,比如所有数仓正式表需要走规范建模的模式,TMP临时表走自定义SQL模式。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/634cc094f9f5ce04d55c2ef45fbb70e8..jpg
 

04

● 痛点四:无法高效地监控并提高企业数据质量

当作为数据开发人员都被业务方投诉过数据产出不及时、数据不准确、数据有缺失、数据不一致等问题。如何通过简单的配置,能够让开发人员在业务方使用数据之前发现并解决问题,是数据质量管理的核心诉求。


● 解决方案:

1.质量规则配置:不需要通过SQL代码编写,仅通过简单的模版配置,就能完成一个校验任务的创建。并支持自动调度运维、自动生成分析报告、自动输出问题明细,释放数据开发的生产力。


2.校验目标:校验的目标可以是一张表/一个分区/一个字段,该场景常用于数据开发后,对结果表进行校验。也可以是两张表比较数据一致性,该场景常用于数据同步后,需要对源表和结果表的数据进行比对。还可以是Kafka流式数据,通过微批处理的方式消费校验Topic数据。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c47a14145d02e7db6b80c4696a9280be..jpg

05

● 痛点五:无法有效地评估数据价值

相信大部分做过数据管理的人员,都被问过这些问题。这个数据有什么价值?这个数据用的人多吗?这张表占用这么大的存储,历史数据能删吗,删了会有什么影响?每天计算这些数据需要花多少钱?在回答这些问题的时候,很难拿出一些量化的数据,导致数据部门的ROI无法有效衡量。


● 解决方案:

1.数据成本管理:通过统计数据的计算成本、存储成本、带宽成本、人力成本等维度信息,经过相关的公式转化,计算出每张表每日产出数据所需要的费用。


2.数据价值管理:通过统计数据的血缘依赖情况、数据的查询情况、数据服务的调用情况等维度信息,量化指标分析数据活性。例如,对于每天新增存储量庞大但是数据使用和血缘依赖量很小的数据,可以考虑周期清理历史数据;对于每天被大量查询和依赖的数据,优化逻辑代码并提高相应的任务优先级,保障数据的及时产出。

 

以上只是数据资产管理的部分场景问题和解决方案,在日常数据管理过程中大家也许遇到的问题更多、更复杂,希望该篇文章对企业如何落地数据治理、数据资产管理项目有参考价值。



想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs


同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群