博客 数据质量:数据治理的核心

数据质量:数据治理的核心

   小美   发表于 2022-11-25 11:53  753  0

随着大数据时代的到来,流动的数据已经成为连接全世界的载体,也成为促进经济社会发展、便利人们产生生活的源动力。伴随着数据的流动,尤其是为了解决流动过程中产生的一系列问题,”数据治理“流行起来。而要了解数据治理及数据质量,还得从数据、数据治理、数据质量这些基本概念说起。

一、数据质量问题产生来源

数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。

大数据时代数据集成融合的需求不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。

二、数据治理的定义

数据治理定义很多版本,这里给出了DAMA国际数据管理协会对数据治理定义。数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。

数据治理是高层次的、规划性的数据管 理制度活动,其关键管理活动包括制定数据战略、完善数据政策、建 立数据架构等,注重数据的使用者、使用方式、使用权限等合规性制 定,强调开展数据资产全生命周期管理前的基础工作,关注数据资产 管理中的相关保障措施。        

2015 年,DAMA 在 DBMOK2.0 知识领域将其扩展为 11 个管理职能,分别是数据架构、数据模型与设计、数据存储与操作、数据安全、数据集成与互操作性、文件和内容、参考数据和主数据、数据仓库和商务智能、元数据、数据质量等。因数据治理涉及内容较多,本文先讲较重要的数据质量管理职能。

实际上,大数据处理的关键也是在解决数据质量问题,《大数据资产:聪明的企业怎样致胜于数据治理》作者托尼·费舍尔曾提到:“如果基本数据不可靠,大多数企业的大数据计划要么失败,要么效果低于预期。造成上述结果的关键原因在于,数据生命周期中流入了不一致、不准确、不可靠的数据。”,糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确,监管业务难,高层领导难以决策等问题。

数据质量管理是数据治理的核心,数据治理工作最终是为了保证在一个组织内生产、供应和使用高质量的数据。


三、重点关注的数据质量维度

数据质量问题贯穿整个“数据供应链”。我们经常听到:“垃圾进,垃圾出”,这句话是指高质量数据分析结果,取决于高质量的数据输入,输入的数据质量低下,数据分析结果也叫没有什么价值。以及笔者经常提的“数据治理要从源头抓起”,也是说的这个意思。重点都在强调数据供给侧保障数据质量的重要性。数据供给侧更多的是站在数据生产者或数据管理者的角度看数据质量的,重点关注以下的5个数据质量维度。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/8bb5a305c897c8cc92b0d60273ee9a79..png

1、数据完整性。数据完整性体现在三个方面,第一是元数据的完整性,例如:唯一性约束完整性、参照完整性等;第二是数据条目完整性,例如:数据记录丢失或不可用会影响数据的完整性;第三是数据属性完整性,例如:数据属性空值情况等。

2、数据准确性。数据的准确性也叫数据可靠性,狭义上的数据准确性是用于分析、识别和度量哪些是不准确的或无效的数据的。

3、数据一致性。数据一致性主要体现在两个方面,第一是多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。第二是数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突等问题。

4、数据唯一性。数据唯一性是用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据质量问题。

5、数据有效性。数据有效性用于度量数据是否符合既定的条件,不符合条件的视为无效数据。例如:在统计当前在职的职工人数时,数据集中的已离职人员应当被剔除出去。

低下的数据质量是实现数据赋能、数据驱动的头号敌人,只有提高供给侧的数据质量,才能保证输出的数据服务或数据应用是有价值的。当然,供给是由需求驱动的,以上5个数据治理维度同样也适用于需求侧,这5个维度也是广义上的数据准确性。

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack/Taier

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群