博客 数据资产难管理?五大 “诀窍” 分享给你!

数据资产难管理?五大 “诀窍” 分享给你!

   小美   发表于 2022-12-12 10:50  381  0
数据资产管理的概念非常广,可以做的事情也非常多。企业在考虑立项做数据资产管理或者数据治理的时候,往往不知道从何入手。然后在一众数据治理厂商的概念灌输下,匆匆上马项目,落地后却发现治理前后的改进效果并不大。本文梳理了企业常见的几个数据资产管理痛点和解决方案,大家可以结合企业自身的数据状况对症下药。
01
● 痛点一:元数据分散、缺失,缺少管理工具
随着业务的发展,企业的内部数据越来越多,用户获取数据的成本也越来越大。比如 A 部门需要调用 B 部门的数据时,需要先协调 B 部门的相关人员配合答疑。甚至同部门内入职新员工时,因为没有元数据沉淀,在理解历史数据时需要逐个请教老员工,新人培养成本极大。
● 解决方案:
1. 元数据统一采集: 采集企业各个部门的元数据信息至同一平台,对数据进行分类管理,然后提供统一的对外查询服务。不需要用户登录各个业务系统或者数据库查询元数据,节省了操作成本的同时又避免了数据泄露的风险。
2. 元数据统一管理: 能够在数据库中采集到的元数据信息是有限的,光凭这些信息用户可能仍然不足以理解一份数据的含义。这时候我们就可以在采集的基础上,为每份数据维护更多的业务属性信息,最大限度地让数据理解这件事情能够线上自主完成,而不需要线下协调沟通。
3. 元数据统一分析: 全局的统计分析能够让数据管理人员更好地掌握企业数据状况。并且元数据管理并不是一蹴而就的事情,需要逐步推进完善,这个过程就需要相应的监控分析进行管理。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/38530b4988ca6652e7974e0c6c5abce6..jpeg
02
● 痛点二:缺乏体系化的数据标准建设和应用工具

在企业数据管理过程中,最普遍出现的一个问题就是:数据同名不同义、同义不同名。这个问题会出现非常多的影响,比如数据开发的效率降低(需要核对同名数据不同的加工逻辑)、数据服务的口径问题投诉(业务方提了个指标数据需求,数据开发取出的数据和业务方预期不同)等。

● 解决方案:
1. 数据标准体系建设: 从零开始建设一套完整的数据标准体系非常不容易,如果没有一款线上工具的支撑,线下工作非常难推进。而像金融、制造这些标准化行业,已经存在非常成熟的国标、行标等文件,如果能在这些标准文件的基础上,结合企业自身的特点做些增改,可大大加快建设进度。
2. 数据标准的后向应用: 完成数据标准体系建设后,我们可以将数据标准和我们历史积累下来的数据进行映射匹配、质量校验,帮助我们发现哪些数据存在标准化问题,然后对应的进行整改。
3. 数据标准的前向应用: 将数据标准作为我们数据落地的前置条件,具体则可以将数据标准应用在数据建模、ETL 等数据开发过程中,让数据落地时即是标准化的。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/6655c5d3edf084eee09185500b2f7367..jpeg
03
● 痛点三:缺乏规范的数据模型管理和落地实施方案
在传统的数据开发过程中,数据开发直接通过写 SQL 的方式进行建模,虽然非常快速,但是给数据治理留下了非常大的隐患。比如数据标准无法起到强约束的作用,就会出现上文中的数据同名不同义问题;比如模型之间的 ER 关系无法直观体现,极大地降低了数据开发效率。
● 解决方案:
1. 标准化数据建模: 在模型主题、模型元素的规范约束下,通过零代码、配置化的方式引用数据标准,完成规范的数据模型建设。然后通过可视化配置的方式,配置模型表之间的关联关系,构建数仓中的星型模型 / 雪花模型。
2. 模型实施场景: 通过上诉的标准做法虽然可以构建规范的数据模型,但是相比于直接写 SQL 会牺牲一定的灵活性和效率。基于我们之前的交付经验,大部分客户愿意在中间做出平衡,比如所有数仓正式表需要走规范建模的模式,TMP 临时表走自定义 SQL 模式。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/3ef544f8198d3e5479d8842bdcff773a..jpg
04
● 痛点四:无法高效地监控并提高企业数据质量
当作为数据开发人员都被业务方投诉过数据产出不及时、数据不准确、数据有缺失、数据不一致等问题。如何通过简单的配置,能够让开发人员在业务方使用数据之前发现并解决问题,是数据质量管理的核心诉求。
● 解决方案:
1. 质量规则配置: 不需要通过 SQL 代码编写,仅通过简单的模版配置,就能完成一个校验任务的创建。并支持自动调度运维、自动生成分析报告、自动输出问题明细,释放数据开发的生产力。
2. 校验目标: 校验的目标可以是一张表 / 一个分区 / 一个字段,该场景常用于数据开发后,对结果表进行校验。也可以是两张表比较数据一致性,该场景常用于数据同步后,需要对源表和结果表的数据进行比对。还可以是 Kafka 流式数据,通过微批处理的方式消费校验 Topic 数据。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/8a9f4f9c9bd03bbbd2bc843e7f62872d..jpeg
05
● 痛点五:无法有效地评估数据价值
相信大部分做过数据管理的人员,都被问过这些问题。这个数据有什么价值?这个数据用的人多吗?这张表占用这么大的存储,历史数据能删吗,删了会有什么影响?每天计算这些数据需要花多少钱?在回答这些问题的时候,很难拿出一些量化的数据,导致数据部门的 ROI 无法有效衡量。
● 解决方案:
1. 数据成本管理: 通过统计数据的计算成本、存储成本、带宽成本、人力成本等维度信息,经过相关的公式转化,计算出每张表每日产出数据所需要的费用。
2. 数据价值管理: 通过统计数据的血缘依赖情况、数据的查询情况、数据服务的调用情况等维度信息,量化指标分析数据活性。例如,对于每天新增存储量庞大但是数据使用和血缘依赖量很小的数据,可以考虑周期清理历史数据;对于每天被大量查询和依赖的数据,优化逻辑代码并提高相应的任务优先级,保障数据的及时产出。
以上只是数据资产管理的部分场景问题和解决方案,在日常数据管理过程中大家也许遇到的问题更多、更复杂,希望该篇文章对企业如何落地数据治理、数据资产管理项目有参考价值。

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群