博客 数据血缘的用途主要体现在哪些方面?

数据血缘的用途主要体现在哪些方面?

   数栈君   发表于 2023-07-10 17:24  261  0

相信很多人都不知道,数据其实也有血缘关系。在数据产生、处理、流转到消亡过程中,能够通过技术手段,追溯到数据的源头,形成一种类似于人类社会血缘关系的关系。


大数据时代,庞大复杂的数据信息之间,通过联姻融合、转化变换,又会生成新的数据。新数据从其产生、加工融合、流转流通到最终消亡,会与加工前的原始数据之间存在必然的联系,如果借鉴人类社会中类似的关系来表达,那么这种数据间的关联关系就可以称之为数据血缘关系。


Convertlab
,赞27


与人类社会的血缘关系不同,数据间的血缘关系包含了一些独有的特征:


1)归属性:一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。

2)多源性:同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。

3)可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

4)层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。

 

数据血缘关系有何作用呢?数据血缘主要描述表与表之间的关系。数据血缘是元数据建设中最重要的一个模块,对于后续的数据问题排查与数据资产评估都具有非常大的作用。数据血缘的作用主要体现在如下几个方面。


1)问题定位排查


在实际的业务场景中,我们如果发现某个数据应用或程序出现故障,就可以通过数据血缘进行排查,以快速定位相关故障节点。


2)指标波动分析


当某个指标出现误差或者出现不正常的波动时,我们可以通过数据血缘进行溯源分析,判断是哪条数据开发链路出现了问题。


3)数据预警与产出保障


对数据加工链条的所有节点进行监控,对下游任务的产出时间进行预测,一旦发现下游任务无法按时产出,就及时报警。并且当某些节点出现问题时,我们需要确保高资产等级的整条数据链路能够有较高的优先级,优先调度并占用数据资源,确保高资产等级的数据能够被准时、准确地产出。


4)质量评估


这是数据分析应用的需求,需要对最终呈现的结果数据质量有所把控。当发现数据出现问题时,需要进一步追踪数据源头,分析产生质量问题的原因并进而解决。从数据血缘图中,可以很方便的得到数据加工过程,进而分析可能的质量问题。


5)合规及安全管控


为了监管合规,数据流动的各点和来源,都是重点需要监管的。因此需要全面了解数据间的关系。需要了解数据如何使用?受众有哪些?这些都可从数据血缘中得到。这些也将为权限管理(表级、字段级授权)提供依据,进而从更高层面保障数据安全。配合上元数据中安全标识(例如:哪些数据需要脱敏等),可进行全域的安全管控。


6)数据归档、销毁的参考


从数据生命周期管理角度来看,数据的血缘关系有助于我们判断数据的生命周期,是数据的归档和销毁操作的参考。


企业如果要进行业务数字化,解决数据源的问题,可以考虑利用数据血缘追溯,数据的血缘对于分析数据、跟踪数据的动态演化、衡量数据的可信度、保证数据的质量具有重要的意义。


如今我们生活在数字经济时代,伴随着数字经济发展,数据资源需要在更多的维度和更广的领域实现流动与融合才能产生更高的价值。原始形态的海量数据,不像传统数据那么可信。错误的数据、遗漏信息的数据大规模出现,数据血缘在数据合规管理中发挥着重要的作用。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群