什么是湖仓一体？-袋鼠云丨数栈丨数据中台丨数据治理丨数据可视化丨数据运维

新闻动态

了解袋鼠云最新动态

什么是湖仓一体？

2021年12月24日|文章来源：-

湖仓一体（Lakehouse）作为一种新的数据管理架构，逐步独立地出现在许多客户的应用场景中。

在决策支持和商业智能应用方面，数据仓库有着悠久的历史。数据仓库技术，自上世纪80年代末出现以来，经历了不断地发展。同时，MPP架构的出现，也使得系统能够处理更大规模的数据量。尽管仓库非常适合结构化数据，但是随着企业的现代化，产生了大量的非结构化、半结构化数据，这些数据呈现出多样性（variety），高速度（velocity）、大容量（volume）等特征。很显然，数据仓库并不适合这样的场景，而且就成本而言，一定不是最具优势的方案。

随着企业从多种数据来源中，大规模地收集数据，架构师也开始考虑，如何构建一个单一的系统，来实现数据的仓库化存储，并以此为多样化的数据分析应用提供承载。

大约十年前，数据湖出现了，它被定义为一种可以存储各类格式的原始数据存储库。数据湖虽然适合数据的存储，但又缺少一些关键功能，比如不支持事务、缺乏一致性/隔离性、不保证执行数据质量等，这样的短板决定了，让数据湖来承载读写访问、批处理、流作业是不现实的。这样一来，当初构建数据湖的目标并没有实现，而且在很多情况下，还失去了传统数据仓库原有的优势。

企业对于数据访问灵活性、高性能的需求从未降低，以此来支撑各种各样的应用系统，如包括数据分析、实时监控、数据科学和机器学习等。另一方面，对非结构化数据的处理（文本，图像，视频，音频），已经成为了人工智能的前沿、热点领域，而这却是数据仓库不擅长处理的。

目前，多系统共存是企业中比较常见的架构，例如一个数据湖，加上多个数据仓库，以及其他的专用系统，例如流、时间序列、图形和图像数据库等。这种架构的复杂性，带来了运维的难题，因为技术人员始终需要在不同系统之间移动或复制数据。更重要的是，数据的传输引入了延迟，不能提高数据的时效性。

为了解决数据湖的局限性，一些新系统开始选择数据「湖仓一体」（Lakehouse）。「湖仓一体」是一种新型开放式架构，将数据湖和数据仓库的优势充分结合，它构建在数据湖低成本的数据存储架构之上，又继承了数据仓库的数据处理和管理功能。

相比数据湖，SequoiaDB湖仓一体架构能够支撑联机交易和联机分析的场景，弥补了如Hadoop架构构建数据湖的重大不足。相比数据仓库，SequoiaDB「湖仓一体」作为支持联机处理的统一数据底座，数据可以实时入库，实时分析，无需异步写入另一个数据库再进行分析处理，大大降低了数据处理的成本。

上一篇：BIM可视化是什么？

下一篇：《数据治理行业实践白皮书》正式发布，开辟数据治理新范式（附下载）