数据中台数据中台
申请试用
新闻动态
了解袋鼠云最新动态
新闻动态>数据管理的方法?>
数据管理的方法?
20211220|文章来源:-

大家已经意识到数据是企业最宝贵的资产了,前面讲的都是企业数据管理的方法,那企业如何把自己的数据资产建好、管好和用好?这不仅仅需要方法论和管理制度,更需要的一个可视化的数据管理工具,实现复杂的数据资产运维简单化,前面的数据中台系列文章开篇就曾介绍袋鼠云数栈大数据产品,它是一款高效的大数据实时/离线任务开发、任务调度和数据管理工具,它从以下三个方面实现数据资产的管理。

  1. 数据地图管理

数据地图是对整个数据中台内的数据进行统一查询、管理的“地图”,数据地图主要面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据中心专有云完成数据信息的收集和管理,解决”有哪些数据可用”、”到哪里可以找到数据”的难题,并且提升数据资源的利用率。

  1. 数据模型管理

数据模型管理,主要是为解决架构设计和数据开发的不一致性,是为了约束平台使用者的表名、字段名的规范性,架构师从工具层合理的进行模型分层和统一开发规范,包括2部分,一个是规则配置,另一个是对表名、字段名的定期校验。

 

规则配置:可以配置表名必须由哪几个元素组成,比如表名=数据仓库所属层级+表所属主题+数据更新周期+增量/全量,按照这个规则,表名就会是

dws_sale_channel_day_full,这样的话,这张表是做什么的就一目了然了。

 

定期校验:可以对表名、字段名做定期校验,告诉你哪些表、哪些字段是不符合要求的,这样的话,平台长期运营下去,依然会处于比较健康的状态。

  1. 数据质量管理

在实际生产中,数据计算任务没有告警,但不代表数据就是正确的,比如源数据异常、代码逻辑修改等原因都会造成结果数据错误。数据质量就是保障数据正确性的工具,主要包括这么几部分:一是支持准确性校验规则,二是支持双表校验,三是输出校验报告。

数据准确性规则配置:可以配置针对表的、字段的校验规则,比如这个表的数

量是不是波动很大,某个字段是不是有异常的值,这个字段的值会不会有很多空值。

 

双表校验配置:数据迁移、重要逻辑变更时需要保证数据的一致性,传统方式采用人工编写SQL的校验方式,数栈·Valid提供自动化校验功能,仅需页面配置即可完成海量数据的一致性校验。

 

输出质量报告:支持字段级、表级校验报告,具备历史数据统计功能,辅助定位数据质量的问题根源会定期的自动执行校验规则,输出校验报告。

 

 

此刻起,和袋鼠云一起让数据产生更大价值
此刻起,和袋鼠云一起让数据产生更大价值