博客 数据中台之数据质量检测

数据中台之数据质量检测

   小美   发表于 2023-01-30 14:55  354  0

数据中台之数据质量检测


1


数据中台如果是一台机器的话,进入的是数据,输出的也是数据。但在数据圈子还有另一句话,那就是“垃圾进,垃圾出”。数据质量不行、没有数据、数据不够丰富都会大大影响数据应用的最终产出。回想起上一代数据仓库、数据中心的方案,其建设内容的高度与业务价值并不明显低于当前方案,而导致其最终没有落地的核心关键点之一,就是「数据源的质量问题


当前的数据中台,作为一个台子,向上要支撑数据应用,把应用支撑好。同时向下也要对输入的数据进行完整的数据质量检验。一方面是保证数据和后续应用的质量,另一方面是对企业的主数据管理和数据治理成果进行完整的检验。


2


我们首先对企业的数据有一个结构上的划分,因为不同的数据,其质量也有着不同的问题。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/1f69d8d5edaf96c4ea45462e93a91bf2..jpg

企业数据分层


我们把应用界面中的数据划分成:「基础数据(对应维表数据)业务数据(交易数据、行为数据)大数据(日志数据、流数据等)


  • 基础数据:一般描述的是一个实体,简单的结构是一个枚举数据和参照数据,复杂的则是一个业务主体,比如,人员、组织、用户、客户、供应商,产品、资产、项目、物料等,描述的就是企业内最核心的几个实体对象。


  • 业务数据:一般是这些实体对象的行为,这些行为中一方面是关于钱的,另一方面是关于数量和质量的都会被优先地记录下来。


  • 大数据:其实所谓的大数据也大多是关于这些实体的行为数据,只是这些数据并没有那么样的关键和重要,并且大多数存储在日志或者非结构化文件中,这些数据显然不那么精准,但是也包含了大量的信息。


也许大家会问,那指标数据呢?我们这里把指标数据和标签数据统统归集到数据应用层面,虽然在指标数据和标签数据的使用中也经常会遇到数据定义不一致,口径不统一的问题,但是我们不把他们纳入数据源数据质量问题的讨论范畴中。

 

当所有的数据被汇聚到数据中台中的ODS层时,数据中台就有能力对ODS层的数据质量进行整体的分析。分析结果一方面是对前期数据治理项目结果的总结或者是对企业数据治理工作的开展与推进,另一方面是对数据进行中台整体模型及后续数据应用的一种质量把关工作。我们最终期望在绘制完整数据供应链的时候,数据源质量检测的环节能够占有很重要的一个位置。因为数据应用无法产出的原因中最不好解决的无非是没数据,或者是数据质量不行。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/daba7e62210b430b8e0c81a51d85ae69..jpg

数据源质量评估模型示例


详细展示模型可以参照「袋鼠云数据资源质量评估体系」等内容。袋鼠数据资源质量评估模块以相对完整和可视化的方式对数据资源质量进行全方位评估,且将结果进行动态展示用以帮助该环节数据质量提升。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user6/article/1636554416ec0e87f7d3d33ba392e82c..jpg

数据质量问题分布


我们可以把一些常见的数据质量按照数据类型进行大致的归类:


  • 基础数据数据质量

基础数据的最主要问题就是不统一的问题了,编码不一致,字段内容缺失,同样的字段内容版本不同,字段名字重复等。这种情况通过主数据,业务中台,IDMapping等手段可以有效的解决。


  • 业务数据数据质量

业务数据的常见问题是数据缺失和数据内容与数据模型不符合等问题;比如一个数据表中,明明预留了字段,但是由于各种业务原因,数据没有数值,或者数据的数值明显与定义的业务含义不符合。更严重的是,整个数据表定义的业务含义和某些条的数据业务定义不符。


笔者在一个企业的发货数据表中竟然找到了渠道商返利的信息记录,结果在追问业务方的时候,说是信息系统不支持导致返利业务不支持,只能在这个业务表中临时增加了一个类别,用以渠道返利。其余的数据质量问题也是五花八门,但是从数据开发人员的角度讲,凡事内容与约定模型有不一致的地方都有可能是数据质量的问题点。


  • 大数据数据质量

大数据的问题相对来说就是噪声的问题了,因为大数据毕竟不像业务数据那样,记录的是一次交易,时间、地点、人物、数量、金额都不能有一丝差错,大数据本身就存在了很多的情况,且存储和记录都是采用了低成本的方式(日志,文件,流等),所以大数据肯定是不那么精确的。但是如果大数据的噪声数据如果过大的话,也会直接影响计算的准确性。我们往往会通过各种算法或者预制的条件尽量的将数据中的噪音去掉,让数据结果先达到商用水平。


数据质量的话题还有很多,但是作为数据中台,我们目前的期望是能够对进入中台的数据进行一步质量的检测,主要还是为后续的应用提供支持,也能够在有应用问题的时候,找到对应的原因和进行必要的整改。


想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群