数据资产管理的概念非常广,可以做的事情也非常多。企业在考虑立项做数据资产管理或者数据治理的时候,往往不知道从何入手。然后在一众数据治理厂商的概念灌输下,匆匆上马项目,落地后却发现治理前后的改进效果并不大。本文梳理了企业常见的几个数据资产管理痛点和解决方案,大家可以结合企业自身的数据状况对症下药。
随着业务的发展,企业的内部数据越来越多,用户获取数据的成本也越来越大。比如 A 部门需要调用 B 部门的数据时,需要先协调 B 部门的相关人员配合答疑。甚至同部门内入职新员工时,因为没有元数据沉淀,在理解历史数据时需要逐个请教老员工,新人培养成本极大。
1. 元数据统一采集: 采集企业各个部门的元数据信息至同一平台,对数据进行分类管理,然后提供统一的对外查询服务。不需要用户登录各个业务系统或者数据库查询元数据,节省了操作成本的同时又避免了数据泄露的风险。
2. 元数据统一管理: 能够在数据库中采集到的元数据信息是有限的,光凭这些信息用户可能仍然不足以理解一份数据的含义。这时候我们就可以在采集的基础上,为每份数据维护更多的业务属性信息,最大限度地让数据理解这件事情能够线上自主完成,而不需要线下协调沟通。
3. 元数据统一分析: 全局的统计分析能够让数据管理人员更好地掌握企业数据状况。并且元数据管理并不是一蹴而就的事情,需要逐步推进完善,这个过程就需要相应的监控分析进行管理。
在企业数据管理过程中,最普遍出现的一个问题就是:数据同名不同义、同义不同名。这个问题会出现非常多的影响,比如数据开发的效率降低(需要核对同名数据不同的加工逻辑)、数据服务的口径问题投诉(业务方提了个指标数据需求,数据开发取出的数据和业务方预期不同)等。
1. 数据标准体系建设: 从零开始建设一套完整的数据标准体系非常不容易,如果没有一款线上工具的支撑,线下工作非常难推进。而像金融、制造这些标准化行业,已经存在非常成熟的国标、行标等文件,如果能在这些标准文件的基础上,结合企业自身的特点做些增改,可大大加快建设进度。
2. 数据标准的后向应用: 完成数据标准体系建设后,我们可以将数据标准和我们历史积累下来的数据进行映射匹配、质量校验,帮助我们发现哪些数据存在标准化问题,然后对应的进行整改。
3. 数据标准的前向应用: 将数据标准作为我们数据落地的前置条件,具体则可以将数据标准应用在数据建模、ETL 等数据开发过程中,让数据落地时即是标准化的。
在传统的数据开发过程中,数据开发直接通过写 SQL 的方式进行建模,虽然非常快速,但是给数据治理留下了非常大的隐患。比如数据标准无法起到强约束的作用,就会出现上文中的数据同名不同义问题;比如模型之间的 ER 关系无法直观体现,极大地降低了数据开发效率。
1. 标准化数据建模: 在模型主题、模型元素的规范约束下,通过零代码、配置化的方式引用数据标准,完成规范的数据模型建设。然后通过可视化配置的方式,配置模型表之间的关联关系,构建数仓中的星型模型 / 雪花模型。
2. 模型实施场景: 通过上诉的标准做法虽然可以构建规范的数据模型,但是相比于直接写 SQL 会牺牲一定的灵活性和效率。基于我们之前的交付经验,大部分客户愿意在中间做出平衡,比如所有数仓正式表需要走规范建模的模式,TMP 临时表走自定义 SQL 模式。
当作为数据开发人员都被业务方投诉过数据产出不及时、数据不准确、数据有缺失、数据不一致等问题。如何通过简单的配置,能够让开发人员在业务方使用数据之前发现并解决问题,是数据质量管理的核心诉求。
1. 质量规则配置: 不需要通过 SQL 代码编写,仅通过简单的模版配置,就能完成一个校验任务的创建。并支持自动调度运维、自动生成分析报告、自动输出问题明细,释放数据开发的生产力。
2. 校验目标: 校验的目标可以是一张表 / 一个分区 / 一个字段,该场景常用于数据开发后,对结果表进行校验。也可以是两张表比较数据一致性,该场景常用于数据同步后,需要对源表和结果表的数据进行比对。还可以是 Kafka 流式数据,通过微批处理的方式消费校验 Topic 数据。
相信大部分做过数据管理的人员,都被问过这些问题。这个数据有什么价值?这个数据用的人多吗?这张表占用这么大的存储,历史数据能删吗,删了会有什么影响?每天计算这些数据需要花多少钱?在回答这些问题的时候,很难拿出一些量化的数据,导致数据部门的 ROI 无法有效衡量。
1. 数据成本管理: 通过统计数据的计算成本、存储成本、带宽成本、人力成本等维度信息,经过相关的公式转化,计算出每张表每日产出数据所需要的费用。
2. 数据价值管理: 通过统计数据的血缘依赖情况、数据的查询情况、数据服务的调用情况等维度信息,量化指标分析数据活性。例如,对于每天新增存储量庞大但是数据使用和血缘依赖量很小的数据,可以考虑周期清理历史数据;对于每天被大量查询和依赖的数据,优化逻辑代码并提高相应的任务优先级,保障数据的及时产出。
以上只是数据资产管理的部分场景问题和解决方案,在日常数据管理过程中大家也许遇到的问题更多、更复杂,希望该篇文章对企业如何落地数据治理、数据资产管理项目有参考价值。