数据中台 数据中台

tel 400-002-1024
tel

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

2019年5月21日 老虎 文章来源:袋鼠云

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

 

数据中台如何定义?

企业数据化与数据中台的关系是什么?

数据中台如何支撑企业战略转型?

袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。希望通过后续文章的分享,与诸位读者交流,共同加快企业全面数据化进程。

本专栏每周更新1-2篇,敬请期待~

1

数据中台如果是一台机器的话,进入的是数据,输出的也是数据。但在数据圈子还有另一句话,那就是“垃圾进,垃圾出”。数据质量不行、没有数据、数据不够丰富都会大大影响数据应用的最终产出。回想起上一代数据仓库、数据中心的方案,其建设内容的高度与业务价值并不明显低于当前方案,而导致其最终没有落地的核心关键点之一,就是「数据源的质量问题

当前的数据中台,作为一个台子,向上要支撑数据应用,把应用支撑好。同时向下也要对输入的数据进行完整的数据质量检验。一方面是保证数据和后续应用的质量,另一方面是对企业的主数据管理和数据治理成果进行完整的检验。

 

2

我们首先对企业的数据有一个结构上的划分,因为不同的数据,其质量也有着不同的问题。

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

企业数据分层

我们把应用界面中的数据划分成:「基础数据(对应维表数据)业务数据(交易数据、行为数据)大数据(日志数据、流数据等)

  • 基础数据:一般描述的是一个实体,简单的结构是一个枚举数据和参照数据,复杂的则是一个业务主体,比如,人员、组织、用户、客户、供应商,产品、资产、项目、物料等,描述的就是企业内最核心的几个实体对象。

  • 业务数据:一般是这些实体对象的行为,这些行为中一方面是关于钱的,另一方面是关于数量和质量的都会被优先地记录下来。

  • 大数据:其实所谓的大数据也大多是关于这些实体的行为数据,只是这些数据并没有那么样的关键和重要,并且大多数存储在日志或者非结构化文件中,这些数据显然不那么精准,但是也包含了大量的信息。

也许大家会问,那指标数据呢?我们这里把指标数据和标签数据统统归集到数据应用层面,虽然在指标数据和标签数据的使用中也经常会遇到数据定义不一致,口径不统一的问题,但是我们不把他们纳入数据源数据质量问题的讨论范畴中。

当所有的数据被汇聚到数据中台中的ODS层时,数据中台就有能力对ODS层的数据质量进行整体的分析。分析结果一方面是对前期数据治理项目结果的总结或者是对企业数据治理工作的开展与推进,另一方面是对数据进行中台整体模型及后续数据应用的一种质量把关工作。我们最终期望在绘制完整数据供应链的时候,数据源质量检测的环节能够占有很重要的一个位置。因为数据应用无法产出的原因中最不好解决的无非是没数据,或者是数据质量不行。

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

数据源质量评估模型示例

详细展示模型可以参照「袋鼠云数据资源质量评估体系」等内容。袋鼠数据资源质量评估模块以相对完整和可视化的方式对数据资源质量进行全方位评估,且将结果进行动态展示用以帮助该环节数据质量提升。

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

数据质量问题分布

我们可以把一些常见的数据质量按照数据类型进行大致的归类:

  • 基础数据数据质量

基础数据的最主要问题就是不统一的问题了,编码不一致,字段内容缺失,同样的字段内容版本不同,字段名字重复等。这种情况通过主数据,业务中台,IDMapping等手段可以有效的解决。

  • 业务数据数据质量

业务数据的常见问题是数据缺失和数据内容与数据模型不符合等问题;比如一个数据表中,明明预留了字段,但是由于各种业务原因,数据没有数值,或者数据的数值明显与定义的业务含义不符合。更严重的是,整个数据表定义的业务含义和某些条的数据业务定义不符。

笔者在一个企业的发货数据表中竟然找到了渠道商返利的信息记录,结果在追问业务方的时候,说是信息系统不支持导致返利业务不支持,只能在这个业务表中临时增加了一个类别,用以渠道返利。其余的数据质量问题也是五花八门,但是从数据开发人员的角度讲,凡事内容与约定模型有不一致的地方都有可能是数据质量的问题点。

  • 大数据数据质量

大数据的问题相对来说就是噪声的问题了,因为大数据毕竟不像业务数据那样,记录的是一次交易,时间、地点、人物、数量、金额都不能有一丝差错,大数据本身就存在了很多的情况,且存储和记录都是采用了低成本的方式(日志,文件,流等),所以大数据肯定是不那么精确的。但是如果大数据的噪声数据如果过大的话,也会直接影响计算的准确性。我们往往会通过各种算法或者预制的条件尽量的将数据中的噪音去掉,让数据结果先达到商用水平。

数据质量的话题还有很多,但是作为数据中台,我们目前的期望是能够对进入中台的数据进行一步质量的检测,主要还是为后续的应用提供支持,也能够在有应用问题的时候,找到对应的原因和进行必要的整改。

 

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

 

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。

 

袋鼠云数据中台专栏2.0 | 数据中台之数据质量检测

DTSTACK.COM

数据智能,让未来变成现在

400-002-1024