博客 聊聊云原生大数据平台(五)——元数据

聊聊云原生大数据平台(五)——元数据

   数栈君   发表于 2023-01-09 15:09  545  0

元数据

传统的 RDBMS 经过了多年的行业应用,产品打磨,在元数据方面做得还是比较完善的。而云数据平台因为还没有普及,在各家公司内部搭建过程中往往容易被忽略。这部分的能力实际上作为企业级成熟产品是至关重要的一环。

6.1 平台元数据

平台在运行过程中会产生各种信息,例如配置的各类数据源,数据获取的执行情况,数据处理的执行情况,数据集的 schema、统计信息、血缘关系,系统的资源使用情况,各种日志信息等等。通过这些信息,我们可以对各种平台任务进行监控和告警,当出现问题时也能通过这些信息的查看进行方便地排查处理,而不是分别登录到各个模块的管理控制台上去一一检查。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6b33f04579029b44f48dcb41b6aa0c9c..jpg

平台元数据类型

Schema 这块是一个比较大的话题。相对于基于关系型数据库技术的数仓系统来说,云数据平台在灵活的处理数据集 schema 的变化方面具有一定优势。大多数的云数据仓库在处理 schema 变化时,都会对其服务造成一定影响(例如需要锁表)。而很多 lakehouse 则可以比较好地支持 schema evolution,例如 Delta 里的 mergeSchema 选项。当然这个功能也并不是万能的,在整个数据平台中,涉及到各种数据的处理转换,各个环节的交互配合,下游系统如数仓,实时分析数据库的写入和其它外部系统的消费,我们必须对 schema 进行严格的记录和管理。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/70cec0fce99d93a23f53605714e734fb..jpg

元数据中的 Schema Registry

另外一块非常重要的元数据类别是数据质量。随着企业数字化进程的推进,涉及到的各类数据源越来越繁多,内部的各种数据处理转换也越来越复杂,且各类企业决策越来越依赖于数据内容和相应的分析结果,如何保证我们在整个复杂度上升的过程中仍然保证“数据产品”的质量和整体的迭代运维效率,成了一个非常关键的问题。这类诉求推动了所谓 DataOps 运动的产生,借鉴 DevOps 中如何维持企业开发,交付,运维复杂软件的经验,将其应用到了数据产品领域。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6aaf25af47f2e1cb083aea06c9fb1caf..jpg
DataOps Cycle

这其中非常重要的一环就是数据质量检查的持续监控测试,并应用于数据流 CI/CD,以及数据管控,数据发现等环节。这也催生出了一类新的产品,称为“Data Observability”,非常形象地表达了洞见数据平台中整体数据健康状态的目标。

6.2 业务元数据

除了技术层面的元数据外,在业务上也有相关的元数据管理和使用的需求。例如平台数据集多了之后,管理和搜索就会比较复杂,基础的文件夹结构可能难以满足需求,所以我们需要支持对数据集的描述,打 tag,搜索等功能,帮助业务用户更快地找到合适的业务数据信息。所谓的 Data Discovery,Data Catalog 产品一般就是为了满足此类需求。

此外根据公司业务的不同,还需要遵循相应的数据合规要求,如个人信息的隐私保护,支持用户的各类数据权利和自由等。这方面的能力也需要专门的元数据管理和数据管控(governance)支持。典型的公司有 Collibra 等。

6.3 需求与产品

对元数据组件,常规的需求肯定还是需要保证高可用和扩展性能,当平台规模较大时,元数据的规模量级也会非常可观。此外一个重要的是灵活性和扩展性,比如支持用户自定义的元数据内容,通过开放 API 来提供对外服务等。在数据处理,流程编排执行,以及后续数据消费等模块中,都需要与各类元数据打交道,因此一个设计优良的元数据服务也越来越受到大家的重视。

这个领域相对来说比较新,云厂商提供的产品不一定能满足所有需求,如 AWS Glue Data Catalog,Google Data Catalog,Azure Data Catalog。

也有一些开源厂商有提供相关服务,平台元数据方面相对比较少,比较有代表性的是 Marquez 。而在业务元数据层面或综合性的比较多一些,有 Apache AtlasAmundsenDataHubAtlanAlation 等。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ea839d3c8dc395d3d2a5d9a4bc06ce61..jpg

Atlan 功能介绍

对于 Data Observability 这块,也有很多我们熟悉的开源工具和产品,例如 AWS 开源的基于 Spark 的 Deequ,“碰瓷”狄更斯的 Great ExpectationsMonte CarloBigEye 等。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/76ade5dd921a8b666e8905462b6c8869..jpg

BigEye

(文章来源于网络,如侵删)

相关链接:

聊聊云原生大数据平台(一)——数据平台架构 https://www.dtstack.com/bbs/article/428

聊聊云原生大数据平台(二)——数据获取  https://www.dtstack.com/bbs/article/469

聊聊云原生大数据平台(三)——数据存储 https://www.dtstack.com/bbs/article/470

聊聊云原生大数据平台(四)——数据处理 https://www.dtstack.com/bbs/article/471

聊聊云原生大数据平台(五)——元数据 https://www.dtstack.com/bbs/article/472

聊聊云原生大数据平台(六)——数据消费 https://www.dtstack.com/bbs/article/473

聊聊云原生大数据平台(七)——流程编排与 ETL https://www.dtstack.com/bbs/article/474

聊聊云原生大数据平台(八)——数仓最佳实践 https://www.dtstack.com/bbs/article/475

聊聊云原生大数据平台(九)——大数据平台建设 https://www.dtstack.com/bbs/article/476

袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群