博客从传统数据存储到数据湖，介绍数据存储的发展历程

从传统数据存储到数据湖，介绍数据存储的发展历程

数栈君发表于 2023-04-21 13:46 1047 0

一、数据库

1970年，关系数据库的研究原型System R 和INGRES开始出现，这两个系统的设计目标都是面向on-line transaction processing (OLTP)的应用。关系数据库的真正可用产品直到1980年才出现，分别是DB2 和INGRES。其他的数据库，包括Sybase, Oracle, 和Informix都遵从了相同的数据库基本模型。关系数据库的特点是按照行存储关系表，使用B树或衍生的树结构作为索引和基于代价的优化器，提供ACID的属性保证。

二、数据仓库

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

到1990年，一个新的趋势开始出现：企业为了商业智能的目的，需要把多个操作数据库中数据收集到一个数据仓库中。尽管投资巨大且功能有限，投资数据仓库的企业还是获得了不错的投资回报率。从此，数据仓库开始支撑各大企业的商业决策过程。数据仓库的关键技术包括数据建模，ETL技术，OLAP技术和报表技术等。

目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。

1.数据库和数据仓库对比

1）数据库是作为“所有处理的单一数据源”出现和定义的。数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计，数据的访问的特点是基于主键，大量原子，隔离的小事务，并发和可恢复是关键属性，最大事务吞吐量是关键指标，因此数据库的设计都反映了这些需求。

2）数据仓库的设计目标是决策支持。历史的，摘要的，聚合的数据比原始的记录重要的多。查询负载主要集中在即席查询和包含连接，聚合等操作的复杂查询。相对于数据库系统来说，查询吞吐量和响应时间比事务处理吞吐量重要的多。

3）数据库支持是OLTP，数据仓库支持的是OLAP

2.数据仓库架构

1）基于关系数据库的多维建模（RDBMS-based dimensional modeling）

包含了从外部数据源或者数据库抽取数据的ETL工具。ETL还负责数据的转换，清洗，然后加载到数据仓库的存储中，为了提高查询效率，原始数据会按主题分类，以聚合的方式存储到数据集市中，称之为聚合数据；

2）数据仓库体系结构中还包括前端的查询工具，报表工具和数据挖掘工具，被称为front-end；

3）数据仓库体系结构中都会包含一个构建数据仓库的元数据仓库；元数据仓库包括数据库schema，view，用于ETL的metadata，用于数据聚合的metadata，用于报表呈现的metadata和SQL模板等。数据仓库往往采用meta data driven的架构设计，这个元数据仓库就至关重要

三、数据集市

是一个小型的部门或工作组级别的数据仓库。

有两种类型的数据集市——独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看，从属型数据集市在体系结构上比独立型数据集市更稳定。

独立型数据集市的存在会给人造成一种错觉，似乎可以先独立地构建数据集市，当数据集市达到一定的规模可以直接转换为数据仓库，然而这是不正确的，多个独立的数据集市的累积并不能形成一个企业级的数据仓库，这是由数据仓库和数据集市本身的特点决定的。如果脱离集中式的数据仓库，独立的建立多个数据集市，企业只会又增加了一些信息孤岛，仍然不能以整个企业的视图分析数据，数据集市为各个部门或工作组所用，各个集市之间又会存在不一致性。当然，独立型数据集市是一种既成事实，为满足特定用户的需求而建立的一种分析型环境，但是，从长远的观点看，是一种权宜之计，必然会被企业级的数据仓库所取代。

1.数据集市的特点

数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现，数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点（有些特点数据仓库也具有，有些特点是相对于数据仓库来讲的）：

(1) 特定用户群体所需的信息，通常是一个部门或者一个特定组织的用户，且无需受制于源系统的大量需求和操作性危机（相对于数据仓库）。

(2) 支持访问非易变（nonvolatile）的业务信息。（非易变的信息是以预定的时间间隔进行更新的，并且不受 OLTP 系统进行中的更新的影响。）

(3) 调和来自于组织里多个运行系统的信息，比如账目、销售、库存和客户管理以及组织外部的行业数据。

(4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义，从而提供净化的（cleansed）数据。

(5) 为即席分析和预定义报表提供合理的查询响应时间（由于数据集市是部门级的，相对于庞大的数据仓库来讲，其查询和分析的响应时间会大大缩短）。

2.数据仓库与数据集市的区别

1）数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近，或分布到更靠近用户的位置，放置在何处取决于使用和通讯成本。

2）数据集市是用来满足特殊用户的应用需求的数据仓库，它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围，而非规模大小。

3）数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。

4）数据仓库是一个集中的、多用途的存储库, 在它的锁定和照顾下, 数据集市浮出水面, 作为为满足特定部门或业务功能的特定报告需求而构建的技术的一个子集。

5）数据仓库是用自上而下的方法构建的, 存储详细的、结构化的数据, 而数据集市通常是从底层生成的, 其目的是提供选择数据的汇总形式。

四、大数据

对于“大数据”（Big data）研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理（MPP）数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

五、数据湖

Pentaho的CTO James Dixon 在2011年提出了“Data Lake”的概念。在面对大数据挑战时，他声称：不要想着数据的“仓库”概念，想想数据的“湖”概念。数据“仓库”概念和数据湖概念的重大区别是：数据仓库中数据在进入仓库之前需要是事先归类，以便于未来的分析。这在OLAP时代很常见，但是对于离线分析却没有任何意义，不如把大量的原始数据线保存下来，而现在廉价的存储提供了这个可能。

数据湖架构保证了多个数据源的集成，并且不限制schema，保证了数据的精确度。数据湖可以满足实时分析的需要，同时也可以作为数据仓库满足批处理数据挖掘的需要。数据湖还为数据科学家从数据中发现更多的灵感提供了可能。

和数据仓库对比来看，数据仓库是高度结构化的架构，数据在转换之前是无法加载到数据仓库的，用户可以直接获得分析数据。而在数据湖中，数据直接加载到数据湖中，然后根据分析的需要再转换数据。

1.数据湖架构的特点

数据存储：大容量低成本

数据保真度：数据湖以原始的格式保存数据

数据使用：数据湖中的数据可以方便的被使用

延迟绑定：数据湖提供灵活的，面向任务的数据绑定，不需要提前定义数据模型

2.从数据仓库到数据湖浅谈数据架构演进

3.数据仓库和数据湖对比

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

140页深度干货，囊括15个典型成功案例，覆盖金融、集团、政务、制造、港口5大行业，全书从方法论到实践全面解码数据治理，开辟数据治理新范式，丰富内容可免费获取！

免费获取链接：https://fs80.cn/4w2atu