博客 一文给小白讲清数据治理

一文给小白讲清数据治理

   数栈君   发表于 2023-02-08 18:31  286  0

前言

最近有小伙伴在人人都是产品经理网站提了一个问题:

1. 一句话描述什么是数据治理,通俗易懂,不要太偏技术。2. 数据治理包含什么3. 如何实施数据治理

这篇文章,我就来跟各位聊聊,什么是数据治理。附:作者整理了一些实用的参考资料,需要的小伙伴可以私聊数苗哦。


01 什么是数据治理

不懂就搜,打开搜索引擎,你会看到以下内容:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8e221aa795919f8e2712be3b79a9101b..jpg

DAMA 和 DGI 都给出了比较精炼的定义和回答,但我第一次读的时候,我碰了新的问题,什么是数据资产?如何决策,要如何分工?

注意最后的一段话:“数据治理的最终目标是提升数据的价值”,以终为始,我们可先将这个目标铭记在心中。

小明看到自己喜欢喝的一款高端酸奶标价 8 元,他连忙拿了一瓶去买单。结果店员告诉他,本次活动第一瓶是原价,第二瓶才是 8 块的半价。

上面的例子中,单纯一个数字,是没有意义的,必须要相应的解释,人们才能理解。“买满两瓶,第二瓶酸奶的单价是 8 块”,这才是真正完整的指标。

用一个简单的公式给出指标的定义:指标 = 数字 + 解释

其中解释包含两方面:1 ) 业务上的解释 2 ) 技术上的解释

业务解释通常是图文,意在给指标使用者解释指标从何处来,怎么算。

技术解释通常是用程序语言定义的计算逻辑,比如用 SQL 语句定义人数为 count(user_id),均价为 avg(price) 。

其实理解了元数据,就能理解指标,大家可以参考文末的元数据文章。


02 数据治理,什么是数据

大家对数据不陌生,每天聊微信、刷抖音,睡觉的时候,智能设备还能继续收集并记录人体健康数据,现代人类每天都在产生无数的数据。但是你有没有了解过,到底什么是数据?数据的定义是什么?

「数据」是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。

抽象的概念太难理解了,接下来举个例子。我们现在经常看到的数据是这样的:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2bd0d905436900702c29edd287c6cfad..jpg

表格中,“16656”、“李二狗”、“男”、“301”都是数据。

但在,没有表头解释的情况下,“301”,到底是分数,还是宿舍号呢?这就涉及到了数据的解释。

其实,完整的表格是这样的:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ca2ed9144cba5fb217fe7b221776cd1f..jpg

这个例子中,学生信息有 4 项数据,每个数据都为了记录和鉴别,都其标准和规则。

比如宿舍号,其的产生规则是“楼层+编号”,这产生的影响就是,宿舍号注定不会是负数或者小数。假设某学校的宿舍只有六层,那该校宿舍号的限定范围只能是 101~699 。

每个学生在录取后,学籍系统会为每个学生产生唯一的学生 ID,以便区分学生。分配宿舍时,学生的这 4 项住宿信息要完整、准确、及时地记录到宿管系统中,且学生 ID,要与学籍系统保持一致

对于数据来说,有基本的几个要求:完整性、准确性、一致性、及时性


03 数据治理,什么是治理

让我们将重点放到治理这个词上。

联合国全球治理委员会(CGC)对治理的概念进行了界定,认为“治理”是指“各种公共的或私人的个人和机构管理其共同事务的诸多方法总和,是使相互冲突的或不同利益得以调和,并采取联合行动的持续过程”

这个委员会总结了治理的四个特征:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b8eb0722b988318d80d933ea3be5ddd6..jpg

图源自作者

而基于概念和特征,有人总结了治理的基本职能:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b08b92d9454e736989e3e0f6e5936444..jpg

图源自作者

总的来说,治理是一个朝着最终目标前进的动态过程。


04 数据治理,包含什么

1)数据治理流程

我将借用生活的例子来讲解一下,帮助大家建立初步理解。

从埋在土里到被端上餐桌,土豆流程大体如下:

  • 采集(人工或用机械将土豆挖出来)
  • 运输 & 存储(将土豆转运到仓库或者厨房)
  • 定标准(设定评选方法,确定切块的大小、切丝的长度)
  • 清洗 & 精加工(清洗泥土,削去表皮,按照标准切成方块、长条、土豆丝)
  • 烹饪 & 摆盘(厨师烹饪,出锅、摆盘、端上餐桌)


2)数据治理的工具

为了达到开垦农田的目标,你是愿意选择刀耕火种还是机械化耕种呢?

数据治理是一项复杂的工程,为了保障效率,许多工具被设计出来。我对这些工具进行了简单的归类:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b08e4d819116d9faf991d4946dfc9764..jpg

简单解释下。

数据存储要提供“容器”,一切的治理动作都发生在其中。数据同步,则要提供“管道”服务,将数据导入到容器中。

有了以上两个关键模块,数据治理核心工作才能开展:定标准、依托标准提质量;按照标准建模、按照模型补数据;将治理完的数据提供出去;对整个治理过程进行安全管控。

通常,数据治理的结果,要得到应用和呈现。BI 工具中的各类图表可以将数据转变成更容易理解的表达方式,而更深层的应用,则是看不见的,比如基于用户行为数据的推荐系统。

市面上各家厂商的产品,都会基于不同过程设计产品,实力强的厂家,则会给出整套数据治理解决方案,比如阿里dataphin、华为dgc、网易数帆等。


文章来源于网络,如侵删

袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群