博客 与元数据相关的数据仓库工具有哪些?

与元数据相关的数据仓库工具有哪些?

   数栈君   发表于 2023-06-13 16:34  281  0

在数据仓库构建的整个过程中,如数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等,均需要相应的元数据的有效支撑。


一、元数据的定义


元数据是用来描述数据的数据,存储着关于数据的信息,为人们更方便地检索信息提供了帮助。例如:核心系统的所有表的表结构就描述了核心系统的所有真正的数据的含义,这些表结构就是关于数据的数据,也就是元数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的来源、取值范围、数据间的关系、业务规则等。


二、元数据管理


在设计元数据管理平台时,需要考虑元数据管理平台使用中的关键环节,包括元模型设计、元数据采集、元数据存储、元数据管理和应用等。


1、元模型设计

如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础。


元模型设计需要尽可能使用通用的模型构建,首先要获取到系统中所有元数据,将这些元数据进行合理规划,进一步抽象成元模型,下一步,就可以按照设计好的元模型来采集元数据信息。


2、元数据采集


元数据的采集包括两部分内容:技术元数据的采集与业务元数据的采集。


技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,常见的技术元数据包括:数据的表结构Schema信息、数据的空间存储,读写记录,权限归属和其它各类统计信息、数据的血缘关系信息。元模型设计完成后,可以通过元数据管理工具对技术元数据进行自动采集,例如:Pentaho的开源ETL产品Kettle和DataStage等。


业务元数据从业务角度描述了数据仓库中的数据,它提供了介于用户和数据仓库之间的语义层,可以实现业务模型与数据模型之间的映射,帮助用户理解数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。由于数据仓库中数据来源广泛,采集业务元数据较为复杂,需要对业务系统进行深入理解,梳理出各系统的业务范围、业务流程、业务定义口径、业务取数逻辑规则等,并添加到元数据管理系统中。


3、元数据的存储


元数据通常集中的存储在专用的数据库中,需要借助专用工具来实现数据库的对接,这类工具被称为元数据知识库工具,这些工具包括:Pentaho的Metadata、微软的Repository、MetaStage和Sybase的WCC等。


4、元数据管理工具


元数据存储到专用数据库后,需要借助管理工具对元数据进行浏览、展示和管理,这些工具包括:Meta Center、Meta Matrix、Meta Integration等。


三、元数据的应用


元数据管理被普遍应用到血缘分析、影响分析、元数据对比分析、指标一致性分析、数据生命周期管理、辅助应用优化等各个方面,下面就其中三个方面进行展开介绍:


1、血缘分析


数据的血缘关系,就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。在数据仓库中,数据经由业务系统->ODS->数据集市->数据应用(报表)进行抽取、加工、转换,数据处理加工的逻辑比较复杂,很容易会出现报表指标不符合业务逻辑的情况,出现问题也很难迅速解决。


通过使用元数据系统的数据流向分析,可以根据血缘关系往上游排查,看看到底在哪个环节出了问题,可以快速定位特定的表和某些字段,然后做详细的逻辑分析,大大简化了分析环节,提升了解决问题的效率。


2、影响分析


数据仓库上下游系统较多,源系统变化后,数据仓库到底需要修改哪些数据表、哪些ETL程序,需要对数据表及程序进行一一排查,排查工作不仅耗时耗力,还容易产生遗漏,造成指标数据的不一致。通过元数数据管理,可以根据影响分析往下游排查,快速确定源系统变化对数据仓库的影响范围。


3、元数据对比分析


在数据仓库的建设过程中,至少存在开发环境、测试环境、生产环境等三个环境,由于开发和版本发布过程中的bug,不同环境之间会存在不一致的问题。通过元数据管理,可以自动采集各环境的数据结构,并进行差异性比对,生成数据统计结果辅助数据运维,保证各类环境的一致性。

 

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群