博客 一文详解数据湖的演进历史

一文详解数据湖的演进历史

   数栈君   发表于 2023-04-20 10:41  321  0

1. 什么是数据湖

(1)什么是数据湖
数据湖是一种存储系统,底层包括不同的文件格式及湖表格式,可存储大量非结构化和半结构化的原始数据。数据消费者可以访问该数据进行数据分析,包括 BI、报表和机器学习模型训练。有了数据湖,数据变得越来越可用。
(2数据湖、数据仓库和 Lakehouse 的区别

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/51fb3431ee65a2d1b6a7b8304faabb87..jpg

数据仓库和数据湖的结合形成了 Lakehouse,数据仓库和流结合形成了 Streaming Warehouse,数据仓库、数据湖、流三者结合可能是下一个需要进一步延伸和研究的方向。
Lakehouse 同时具备数据湖和数据仓库的特性,目前这个方向已经逐渐走向成熟。与数据湖相比,Lakehouse 集成了计算框架和 SQL 查询引擎,添加了数据治理能力,支持 Catalog 表管理和先进的作业编排。
① 业界进展(Databricks 2.0)-湖上建仓

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/04fdb3f3e607cc5fd3f025ebf2587264..jpg

业界在 LakeHouse 里面有两个方向,一个是湖上建仓,比如 Databricks2.0 的 Lakhouse 系统平台,主要是依赖于 Delta Lake 统一的数据湖存储格式,在此基础上统一了元数据,并基于 Spark 引擎统一提供的批流一体处理能力,实现在数据湖上建设数仓。
② 业界进展(Snowflake EDW 2.0)-仓外挂湖

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/82ccc4482bae617ecdd74be47c89a66b..jpg

另外一个是仓外挂湖。业界的发展主要是以 Snowflake 为代表,主要是在它的 EDW2.0 系统里面实现了一个仓外挂湖。比如已经有了 Hive 的数仓存储体系,再引入数据湖的格式,并实现了通过 Hive 对数据湖进行读和写,这种方式就叫做仓外挂湖。Snowflake 也有一套完整的数据仓库系统,它有自己的计算引擎和存储格式、Cache 等一系列系统,在这些系统之上引入了数据湖的格式,比如引入 Iceberg。
2. LakeHouse 的演进
(1Lakehouse 的演进路线

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/74f8b076582d4df8fce6e7ff48661c2b..jpg

主流的三种开源技术是 Hudi、Iceberg 和 Databricks,它们分别在 2016 年、2017 年和 2019 年被开源出来。2021 年 Lakehouse 技术首次进入 Gartner 成熟度曲线,Lakehouse 技术在曲线中处于起步阶段,意味着 Lakehouse 未来会有非常大的发展空间。Lakehouse 在通用数据基础设施蓝图(2.0)中也处于核心地位,位于存储、查询和计算之间,贯通通用数据基础设施蓝图的上下游。
(2Lakehouse 的设计原则
Lakehouse 的设计原则由国内阿里、腾讯、云粒、数梦、滴普、亚信、比智、甲骨文、巨杉、深算院、新华三等公司在 2020 年共同起草,分为功能性设计要素和非功能性设计要素两类。其中,功能性设计要素包括:一体化架构、存算分离、事务和数据一致性、全数据类型。非功能性设计要素包括:弹性高可用、加强的数据治理、尽量少的数据冗余、高并发支持、运维可观测性、高开放性。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群