博客 全面解析湖仓一体与大数据演进历程

全面解析湖仓一体与大数据演进历程

   数栈君   发表于 2023-04-11 17:20  499  0

如何理解湖仓一体
湖仓一体架构演进史
湖仓一体首先就是数据仓库,它要做的是把数据进行分层,需要将数据先清洗再入仓,此时,所有的数据已经失去了原本的价值;而数据湖是将数据先入库,随后再根据业务需要对数据进行加载转化,其优点在于保证需求变化的同时,任何的数据在底层依然可以存储下来,这也是数据湖的一个价值这也是数据湖的重要价值。

而湖仓一体就是将数据湖与数据仓库进行结合,数据湖是对存储层数据多样化能力的完善。

ETL 抽取-转换-加载(Extract-Transform-Load),先清洗(消耗内存)再入库 。
ELT 抽取-加载-转换(Extract-Load-Transform),先入库(临时表)再清洗 。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ce3e1ffedd7fead854bf08a795347012..png


数据湖与数据仓库的互补关系
数据湖本身支持多种计算引擎以及存储计算分离,保障了存储的时候数据是完整的,计算的时候和存储完全没关系,可以按照计算需求去加载数据。而数据仓库依然保持面向主题、面向集成、稳定性以及动态性。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dfc84676e083062e02d97db25cfabd2b..png



技术工具选型策略
湖仓一体设计时需要考虑以下因素;

是否满足业务需求:技术选型并非只要求大而全,而是根据业务需求进行匹配,选择功能覆盖度最合适的;

关注成熟度/流行度:结合开源社区活跃度,具体可查看 Github Star 数;

技术栈落地成本:结合架构复杂度及已有开发经验,把控使用成本;

技术栈一致性:结合本公司技术栈的一致性、相关性,即代码易维护性;

业界使用案例:复用前任厂商的填坑经验

下图为各技术工具成熟度/流行度数据列表:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/986eac627eac8eae9cbbe04e009197a4..png


数据湖工具选型特性对比
Hudi(Hadoop Upserts anD Incrementals)是基于 Spark2.x 管理存储在 HDFS 上的大型分析数据集,支持在 Hadoop 上执行诸如更新、插入和删除之类的操作, 支持:读优化表(Read Optimized Table)和近实时表(Near-Real-Time Table)。

Iceberg 是一个面向海量数据分析场景的开放表格式(Table Format). 定义中所说的表格式(Table Format), 可以理解为元数据以及数据文件的一种组织方式, 处于计算框架(Flink, Spark…)之下, 数据文件之上。

Delta Lake 是一个存储层,为 Apache Spark 和大数据 Workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(Optimistic Concurrency Control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(Data Lakes)带来可靠性。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d09ac8a66c850170744b05c841fd9167..png


湖仓一体蓝图方案
基于 Hadoop 的 HDFS 存储,不仅可以存储结构化数据,还可以存储非结构化数据,并且对于历史数据和实时数据,在 Hive 上可以进行全量存储和以后的数据回溯。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8f2efd7b3e5585809b07ef96d0b87fde..png


湖仓一体方案预研理由
Hudi 集成能力:Hudi 拥有良好的 Upsert 能力以及支持对接 Flink 增量处理的框架。

Flink 技术沉淀:云智慧自己维护了部分 Flink 引擎开发,已支撑数据产品的实时计算。

应对突发需求:对于突发的业务需求,可使用即席查询 Presto 满足查询。

满足近期目标:支持实时获取数据到 Hive,间隔时间在分钟级别,并支持 Upsert。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/439e8cdea2ca1e8df96b2962ca9ac490..png


本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群