博客 一文解析共性数据集构建方法

一文解析共性数据集构建方法

   数栈君   发表于 2023-06-27 17:07  1395  0
构建共性数据集主要有两大难点,一是如何统一用数指标口径,二是如何设计模型实现共享。

以“原子—衍生—复合”指标构建一致性指标模型,形成统一的指标资产体系,可为数据服务提供一致的指标统计口径。

一致性指标定义即描述原子指标、时间修饰词、时间周期和派生指标的含义、类型、命名、算法;明确定义原子指标,通过原子指标、时间周期修饰词以及其他修饰词组合派生指标。

派生指标继承了原子指标所在的数据域、数据类型、算法,从而保障指标的一致性。[1]指标的一致性定义规范如图所示。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/13ad54abc1697802a742d5a2da90c29a..jpg
 
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b8910cf73ee3bb0aa8118e72e2172e9a..jpg
图2  指标一致性定义规范

一致性指标解决了指标数据口径不同,那如何设计模型去实现共享呢?

分析指标一致性的结构,大致可以分为原子指标结合各维度(时间、其他维度)生成派生指标。

原子指标与维度为一对多的关系,可以从不同的维度分析指标,而维度建模的结构分为事实表与维度表,可以从分析维度表中获得维度关键字链接到中心的事实表中进行查询,与指标一致性的结构不谋而合,因此可以采用维度建模的方法实现一致性指标的设计。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/13ad54abc1697802a742d5a2da90c29a..jpg
 
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/17d5f017a3e1275abdd2fe7fe01b43f9..jpg
图3  售电维度示例

此外,维度建模可以减少在事实表中扫描的数据数量,而提高查询性能,同时具备很高的可扩展性,可以很方便地对表结构进行修改,从而适应多样化的分析需求。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群