数栈可以提供2个解决方法:一种是在数据同步环节就进行脏数据相关的配置;还有一种是在数据加工全流程环节进行数据质量监控的配置。
一、脏数据配置
在数据同步执行的过程中可能会出现因主键冲突、格式转换错误等各种原因造成部分数据无法正常写入,不能被正常写入的数据即被视为“脏数据”。
脏数据配置在数据同步配置模块中,在数据同步任务的通道控制步骤中,可配置是否需要记录脏数据,并可指定存储脏数据的表名、生命周期。
二、数据质量配置
作为数据资产管理的一部分,数据质量的保障与提升是一个大数据平台所需的必备功能。通常含义的数据质量包括及时性、完整性、一致性、有效性、准确性。
数据质量模块可以根据不同的业务场景,针对数据表提供表行数、空值数、空值率、重复数、重复率等二十余种统计函数,校验方法支持固定值检测、1天波动检测、7天波动值变化检测、30天波动值检测、7天平均波动检测、30天平均波动检测,告警阀值支持灵活的自定义。