博客 数据湖的重要组成部分详解

数据湖的重要组成部分详解

   数栈君   发表于 2023-04-20 10:42  671  0
1. 数据湖物理存储层

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dece70e87d932c5b57af84668f55356a..jpg

数据湖的存储层主要包括大数据生态的 HDFS 文件系统、主流的云原生对象存储。数据湖物理存储需要具备同时支持 HDFS 生态和云原生的生态。
2. 数据湖文件格式

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/236446caa0fdd94ccf2b12095e110024..jpg

数据湖文件格式主要包括 Avro、Parquet、ORC 等主流的文件格式。其中,Avro 是行级别的,有利于写。Parquet 和 ORC 是列级别的,更方便读(支持列裁剪和过滤)。
3. 数据湖表格式
(1数据湖表格式的功能特点
功能特点主要包括以下几个方面:
① DML 和 SQL 支持
直接在分布式文件上提供 Merge Into、Update 和 Delete 操作。除了 SQL,有些还支持Scala/Java 和 Python API
② Schema Evolution
Table format 的一个关键特性,意味着在不破坏任何内容甚至扩大某些类型的情况下添加新列。
③ ACID 事务、回滚、并发控制
ACID 事务确保所有更改都成功提交或回滚。确保永远不会以不一致的状态结束。有不同的并发控制,例如保证读取和写入之间的一致性。
④ 时间旅行
数据湖表格式会将存储在数据湖中的大数据版本化并形成多版本。可以访问该数据的任何历史版本,在意外写入或删除错误的情况下回滚数据。
⑤ 文件布局优化
随着时间的推移摄入的小文件会增加,但查询数千个小文件很慢,文件布局优化可以将文件碎片重新整理为更大的文件,从而在许多方面提高性能。
⑥ 统一批流处理
数据架构无需在批处理和流式中区分,它们都以相同的表视图对外暴露,复杂性更低,速度更快。无论是从流还是批处理中读取都能获取一致的数据快照。
(2数据湖表格式-社区活跃度

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/148c7478252d13a7715a6b3528bccf7a..jpg

Delta Lake、Apache Iceberg 和 Apache Hudi 是目前最突出的开源数据湖 Table Format 产品。Delta Lake 2.0 在发布之后一路飙升,Star 的活跃数最高。起源最早的是 Hudi,其次是 Iceberg。
(3数据湖表格式-读写特性

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a678105982c9fddf751ea4d541091bb1..jpg

数据湖表格式在读写上需要关心的几个点,一是增量查询(Incremental Query),它在构建流数仓或批数仓时是一个非常重要的特性。二是时间旅行(Time Travel),我们能用它对数据进行回溯和重放,去做数据的回补。三是并发(Concurrency),不同的 Job 可以同时操作一张表。四是主键(Primary Keys),有了它可以像传统数据库一样更好地去做更新,比如进行 Upsert 操作。
(4数据湖表格式-表服务

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d7d935ba0c1ac5bf3e6da43b6c1f37ea..jpg

表服务主要关心 Compaction 和 Cleaning,还有 Schema Evolution 等能力。
(5数据湖表格式-平台能力

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ba2f451cb46589e246782df3c643d648..jpg

平台能力主要关注数据质量检测(Data Quality Validation)、数据写入监控指标(Monitoring)的成熟度等。
(6数据湖表格式-生态支持

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dc81c69fc3eae71beeeedd103b4dc39d..jpg

生态支持方面基本上差不多,都做的挺好。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群