前言
最近有小伙伴在人人都是产品经理网站提了一个问题:
1. 一句话描述什么是数据治理,通俗易懂,不要太偏技术。2. 数据治理包含什么3. 如何实施数据治理
这篇文章,我就来跟各位聊聊,什么是数据治理。附:作者整理了一些实用的参考资料,需要的小伙伴可以私聊数苗哦。
01 什么是数据治理
不懂就搜,打开搜索引擎,你会看到以下内容:
DAMA 和 DGI 都给出了比较精炼的定义和回答,但我第一次读的时候,我碰了新的问题,什么是数据资产?如何决策,要如何分工?
注意最后的一段话:“数据治理的最终目标是提升数据的价值”,以终为始,我们可先将这个目标铭记在心中。
小明看到自己喜欢喝的一款高端酸奶标价 8 元,他连忙拿了一瓶去买单。结果店员告诉他,本次活动第一瓶是原价,第二瓶才是 8 块的半价。
上面的例子中,单纯一个数字,是没有意义的,必须要相应的解释,人们才能理解。“买满两瓶,第二瓶酸奶的单价是 8 块”,这才是真正完整的指标。
用一个简单的公式给出指标的定义:指标 = 数字 + 解释
其中解释包含两方面:1 ) 业务上的解释 2 ) 技术上的解释
业务解释通常是图文,意在给指标使用者解释指标从何处来,怎么算。
技术解释通常是用程序语言定义的计算逻辑,比如用 SQL 语句定义人数为 count(user_id),均价为 avg(price) 。
其实理解了元数据,就能理解指标,大家可以参考文末的元数据文章。
02 数据治理,什么是数据
大家对数据不陌生,每天聊微信、刷抖音,睡觉的时候,智能设备还能继续收集并记录人体健康数据,现代人类每天都在产生无数的数据。但是你有没有了解过,到底什么是数据?数据的定义是什么?
「数据」是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。
抽象的概念太难理解了,接下来举个例子。我们现在经常看到的数据是这样的:
表格中,“16656”、“李二狗”、“男”、“301”都是数据。
但在,没有表头解释的情况下,“301”,到底是分数,还是宿舍号呢?这就涉及到了数据的解释。
其实,完整的表格是这样的:
这个例子中,学生信息有 4 项数据,每个数据都为了记录和鉴别,都其标准和规则。
比如宿舍号,其的产生规则是“楼层+编号”,这产生的影响就是,宿舍号注定不会是负数或者小数。假设某学校的宿舍只有六层,那该校宿舍号的限定范围只能是 101~699 。
每个学生在录取后,学籍系统会为每个学生产生唯一的学生 ID,以便区分学生。分配宿舍时,学生的这 4 项住宿信息要完整、准确、及时地记录到宿管系统中,且学生 ID,要与学籍系统保持一致。
对于数据来说,有基本的几个要求:完整性、准确性、一致性、及时性。
03 数据治理,什么是治理
让我们将重点放到治理这个词上。
联合国全球治理委员会(CGC)对治理的概念进行了界定,认为“治理”是指“各种公共的或私人的个人和机构管理其共同事务的诸多方法总和,是使相互冲突的或不同利益得以调和,并采取联合行动的持续过程”。
这个委员会总结了治理的四个特征:
图源自作者
而基于概念和特征,有人总结了治理的基本职能:
图源自作者
总的来说,治理是一个朝着最终目标前进的动态过程。
04 数据治理,包含什么
我将借用生活的例子来讲解一下,帮助大家建立初步理解。
从埋在土里到被端上餐桌,土豆流程大体如下:
为了达到开垦农田的目标,你是愿意选择刀耕火种还是机械化耕种呢?
数据治理是一项复杂的工程,为了保障效率,许多工具被设计出来。我对这些工具进行了简单的归类:
简单解释下。
数据存储要提供“容器”,一切的治理动作都发生在其中。数据同步,则要提供“管道”服务,将数据导入到容器中。
有了以上两个关键模块,数据治理核心工作才能开展:定标准、依托标准提质量;按照标准建模、按照模型补数据;将治理完的数据提供出去;对整个治理过程进行安全管控。
通常,数据治理的结果,要得到应用和呈现。BI 工具中的各类图表可以将数据转变成更容易理解的表达方式,而更深层的应用,则是看不见的,比如基于用户行为数据的推荐系统。
市面上各家厂商的产品,都会基于不同过程设计产品,实力强的厂家,则会给出整套数据治理解决方案,比如阿里dataphin、华为dgc、网易数帆等。
袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack