博客 业务元数据的标准管理主要解决了哪些问题?

业务元数据的标准管理主要解决了哪些问题?

   数栈君   发表于 2023-12-22 11:27  117  0

元数据对于数据管理和数据使用来说都是必不可少的。所有大型组织都会产生和使用大量的数据,在整个组织中,不同的人拥有不同层面的数据知识,但没有人知道关于数据的一切。因此,必须将这些信息记录下来,否则组织可能会丢失关于自身的宝贵知识。
元数据管理提供了获取和管理组织数据的主要方法,建立业务术语表,用于定义和定位组织中的数据,确保组织中数量繁多的元数据被管理和应用。假如没有可靠的元数据,组织就不知道它拥有什么数据,为保证其高质量,应把元数据当作产品来进行管理。好的元数据不是偶然产生,而是认真计划的结果。这里介绍携程度假对于业务元数据的标准管理。


 业务元数据的标准管理

业务元数据的标准管理主要解决了以下问题:

第一、数据地图中的业务元数据需要覆盖哪些?

携程度假的数据地图工具集成了模型、指标、看板、数据集四种业务元数据,除了元数据信息的搜索与展示,也打通了权限申请流程及在线管理的功能。

模型:数据中台中规范化的主题域模型。
指标:数据中台中标准化的业务分析指标。
看板:支持有固化场景的标准化的指标分析看板。
数据集:支持无固化场景下的明细查询与数据探索分析。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9c39bf9a113a9e64222e3768997dcf0a..jpg
  


第二、如何管理并维护准确一致的元数据?


建表元数据规范


数仓模型建表的流程需要严格遵守建表工具规范,主要的元数据信息有:

分层:按照经典建模分层思路,分为ODS层(操作数据层),EDW层(明细数据层),CDM层(汇总数据层),ADM层(数据应用层),MID层(中间层),DIM层(维度层)

一级主题:按照数据域进行划分,例如常规的订单域、日志域、商品域、服务域等

二级主题:按照业务线进行划分,度假包含的业务线较多,例如团队游、门票、用车、租车等

分区类型:全量分区或增量分区

重要等级:标识表的重要程度优先级,分为P0-P3

敏感级别:标识商密与个密敏感程度,分为L1-L4

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7848715141d22dfea0bb55981cb3bb84..jpg
  


建表工具会根据元数据的选择自动生成标准的建表语句模板,其中包含了表名规范、字段名及注释规范等,表owner根据工具的引导完成表名及表的逻辑结构的设计,并将这些信息和完整的注释通过工具提交建立正式表。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/195983507f322677d0e2320b6712da44..jpg
  


指标元数据规范



指标的定义是由组成指标的业务术语构建而成,主要的业务术语有:
数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。例如常规的订单域、日志域、商品域、服务域等
业务过程:指企业的业务活动事件。例如订单域中的下单、支付、退款等
时间周期:指用来明确数据统计的事件范围或者时间点。例如最近30天、最近半年、截至当日等
修饰词类型:指对修饰词的一种抽象划分。例如商品维度-商品类型、时间维度-预定日期、渠道维度-分销渠道等
修饰词:指除了统计维度外指标的业务场景限定抽象。
原子指标:指基于某一业务行为下的度量,是业务定义中不可再拆分的指标。例如成交-订单数
维度:指用来反应业务的一类属性,这类属性的集合构成一个维度。例如商品维度、时间维度、渠道维度等
维度属性:指隶属于一个维度下的属性值。例如地理维度下的城市ID、城市名称、所属国家等
派生指标:派生指标=业务线+一个原子指标+多个修饰词(可选)+时间周期。例如团队游_成交-订单数

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a468fbfc14ca8cb11da4c7bc49a045b6..jpg
  



指标的设计与注册必须严格遵守指标的定义规范,且在指标管理系统中进行操作,所有上述的业务属于都在系统后台事先进行标准化,标准化的内容包括术语的命名、分类以及准确的定义。原子指标和派生指标的生成过程都是基于标准化的组装,所有的相关信息也是结构化的自动生成。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/32f411085c13ce251459a5297999e59c..jpg
  


指标实践中在最终生成一个派生指标完整元数据时,有两个设计上必须考虑到两点:

第一,指标的口径必须有一个明确的业务维护人而不应该只有一个数据开发owner,关于指标的生命周期管理(变更或者下线)都是需要指标业务owner收口,这样才能保证指标的定义和业务的一致性;

第二,在业务术语定义标准结构化的同时,最好加上一个业务话术的定义描述,便于业务更好的理解指标的业务含义。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d143eebb3364c05f45b83916f658235c..jpg
  


第三、数据地图如何更好的帮助业务使用数据?

门户看板的指标应用标准化


业务门户看板是固化场景的数据查询分析入口,其中包含了标准化的指标、筛选条件及可视化图表。由于前端展示的个性化需求,指标的展示名称往往不能直接反应指标的口径,往往存在同名不同意的情况,导致业务汇报及使用数据的混乱或需要频繁的线下沟通及确认。

门户看板的指标应用标准化就是通过整合数据地图的指标元数据,在看板工具中强制需要绑定标准化过的指标ID,即已在指标管理系统中维护的指标,在前端的交互上,会清晰的显示出相关指标的指标定义,如果业务还需要进一步查看更多元数据信息,也可以跳转到具体指标信息详情页,会有更多的相关信息可供业务查看。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/92c7e05ade7ebd642ee61e1dd56b8abc..jpg
  


自助分析的取数场景标准化

除了固化场景的看板与数据集,自助取数是另一个让业务能快速利用数据解决业务分析的通道。但对于业务而言,自身对于数据的理解程及取数能力往往远低于门槛线,自助取数中的效率和质量都难以达到相对可用的标准。

自主分析的取数场景标准化就是通过固化相对标准且注释清晰的取数场景模板,简化业务方编写SQL代码的能力,通过简单参数的修改,一键查询即可跳转至自助取数平台进行业务分析。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/1c8f3e7626a3d41aacd2d17b0d14b2d7..jpg
  
————————————————
版权声明:本文为CSDN博主「000X000」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ytp552200ytp/article/details/122099165

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!


《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack  
0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群