数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。
相比之下,数据湖通常存储来自更广泛来源的数据。数据湖平台本质上是来自组织的操作系统和其他来源(通常包括内部和外部来源)的各种原始数据资产的集合。
下表详细介绍了数据湖和数据仓库之间的八个具体差异:
数据湖 | 数据仓库 | |
支持的数据类型 | 数据湖可以处理结构化、半结构化和非结构化数据的组合,这些数据通常以其本机格式存储,以使全套原始数据可用于分析。 | 数据仓库通常存储来自业务处理系统和其他业务应用程序的结构化数据。在大多数情况下,数据在进入数据仓库之前会经过清理和整理。 |
分析用途 | 数据湖主要用于涉及机器学习、预测建模和其他高级分析技术的数据科学应用程序。分析目标并不总是预定义的。 | 数据仓库支持不太复杂的 BI、临时分析、报告和数据可视化应用程序,通常具有用于分析商业运营和跟踪 KPI 的预定义目的。 |
用户 | 数据科学家和较低级别的数据分析师是数据湖的主要用户。他们通常得到数据工程师的支持,他们构建数据管道并帮助根据需要准备数据进行分析。 | 业务分析师、高管和运营人员通过自助 BI 工具使用数据仓库。或者,BI 分析师和开发人员在数据仓库中为业务用户进行查询。 |
数据处理方法 | 数据湖支持传统的提取、转换和加载(ETL) 流程,但它们更有可能使用提取、加载和转换(ELT),其中数据按原样加载并针对特定用途进行转换。 | ETL过程在数据仓库中的数据集成和准备很常见。在加载数据集以支持BI和分析应用程序之前,数据结构已最终确定。 |
架构方法 | 数据集的架构可以在数据存储在数据湖中后使用读取时架构方法进行定义。 | 数据仓库中的架构是在加载数据集之前按照写入时架构定义的。 |
数据存储 | 数据通常存储在关系数据库以外的平台中,例如Hadoop分布式文件系统,云对象存储服务或非关系型数据库。 | 最常见的是,数据使用传统的磁盘存储存储在关系数据库中。数据仓库也可以建立在列式储存数据库上,类似磁盘存储。 |
成本 | 硬件成本可以降低,因为数据湖使用成本较低的服务器和存储。数据管理的成本也可能更低。但一些数据湖的庞大规模可以抹除成本优势。 | 通常,数据仓库所需的大型服务器和磁盘存储系统使其部署成本高于数据湖。管理数据仓库的成本也可能更高。 |
商业利益 | 数据湖使数据科学团队能够分析各种结构化和非结构化数据集,并创建分析模型,为战略规划和业务决策提供见解。 | 数据仓库提供了一个集中的统一和精选数据集存储库,可以轻松访问并用于分析业务绩效和支持运营决策。 |
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack
140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!
免费获取链接:https://fs80.cn/4w2atu