博客大数据领域发展20年的变与不变

大数据领域发展20年的变与不变

数栈君发表于 2023-10-20 10:24 753 0

大数据领域从本世纪初发展到现在，已经历20年。从宏观层面观察其中的发展规律，可以高度概括成如下五个方面：

1. 数据保持高速增长- 从5V核心要素看，大数据领域保持高速增长。阿里巴巴经济体，作为一个重度使用并着力发展大数据领域的公司，过去5年数据规模保持高速增长（年化60%-80%），增速在可见的未来继续保持。对于新兴企业，大数据领域增长超过年200%。

2. 大数据作为新的生产要素，得到广泛认可- 大数据领域价值定位的迁移，从“探索”到“普惠”，成为各个企业/政府的核心部门，并承担关键任务。还是以阿里巴巴为例，30%的员工直接提交大数据作业。随大数据普惠进入生产环境，可靠性、安全性、管控能力、易用性等企业级产品力增强。

3. 数据管理能力成为新的关注点- 数仓（中台）能力流行起来，如何用好数据成为企业的核心竞争力。

4. 引擎技术进入收敛期 - 随着Spark（通用计算）、Flink（流计算）、Hbase（KV）、Presto（交互分析）、ElasticSearch（搜索）、Kafka（数据总线）自从2010-2015年逐步占领开源生态，最近5年新引擎开源越来越少，但各引擎技术开始向纵深发展（更好的性能、生产级别的稳定性等）。

5. 平台技术演进出两个趋势，数据湖 VS 数据仓库- 两者均关注数据存储和管理（平台技术），但方向不同。

图1. 阿里巴巴双十一单日处理数据量增长

1.2 从大数据技术发展看湖和仓

首先，数据仓库的概念出现的要比数据湖早的多，可以追溯到数据库为王的上世纪 90 年代。因此，我们有必要从历史的脉络来梳理这些名词出现的大概时间、来由以及更重要的背后原因。大体上，计算机科学领域的数据处理技术的发展，主要分为四个阶段：

1. 阶段一：数据库时代。数据库最早诞生于 20 世纪的 60 年代，今天人们所熟知的关系型数据库则出现在 20 世纪 70 年代，并在后续的 30 年左右时间里大放异彩，诞生了很多优秀的关系型数据库，如 Oracle、SQL Server、MySQL、PostgresSQL 等，成为当时主流计算机系统不可或缺的组成部分。到 20 世纪 90 年代，数据仓库的概念诞生。此时的数据仓库概念更多表达的是如何管理企业中多个数据库实例的方法论，但受限于单机数据库的处理能力以及多机数据库（分库分表）长期以来的高昂价格，此时的数据仓库距离普通企业和用户都还很遥远。人们甚至还在争论数据仓库（统一集中管理）和数据集市（按部门、领域的集中管理）哪个更具可行性。

2. 阶段二：大数据技术的「探索期」。时间进入到 2000 年附近，随着互联网的爆发，动辄几十亿、上百亿的页面以及海量的用户点击行为，开启了全球的数据量急剧增加的新时代。传统的数据库方案再也无力以可接受的成本提供计算力，巨大的数据处理需求开始寻找突破口，大数据时代开始萌芽。2003、2004、2006 年 Google 先后 3 篇经典论文（GFS、MapReduce、BigTable）奠基了这个大数据时代的基本技术框架，即分布式存储、分布式调度以及分布式计算模型。随后，几乎是在同一时期，诞生了包括 Google，微软 Cosmos 以及开源 Hadoop 为代表的优秀分布式技术体系，当然，这其中也包括阿里巴巴的飞天系统。此时人们兴奋于追求数据的处理规模，即『大』数据，没有闲暇争论是数据仓库还是数据湖。

3. 阶段三：大数据技术的「发展期」。来到 21 世纪的第二个 10 年，随着越来越多的资源投入到大数据计算领域，大数据技术进入一个蓬勃发展的阶段，整体开始从能用转向好用。代替昂贵的手写 MapReduce 作业的，则是如雨后春笋般出现的各种以 SQL 为表达的计算引擎。这些计算引擎针对不同的场景进行针对性优化，但都采用门槛极低的 SQL 语言，极大降低了大数据技术的使用成本，数据库时代人们梦想的大一统的数据仓库终于成为现实，各种数据库时代的方法论开始抬头。这个时期技术路线开始出现细分。云厂商主推的如 AWS Redshift、Google BigQuery、Snowflake，包括 MaxCompute 这样的集成系统称为大数据时代的数据仓库。而以开源 Hadoop 体系为代表的的开放式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎（Hive、Presto、Spark、Flink 等）协同工作的模式，则形成了数据湖的雏形。

4. 阶段四：大数据技术「普及期」。当前，大数据技术早已不是什么火箭科技，而已经渗透到各行各业，大数据的普及期已经到来。市场对大数据产品的要求，除了规模、性能、简单易用，提出了成本、安全、稳定性等更加全面的企业级生产的要求。

开源 Hadoop 线，引擎、元数据、存储等基础部件的迭代更替进入相对稳态，大众对开源大数据技术的认知达到空前的水平。一方面，开放架构的便利带来了不错的市场份额，另一方面开放架构的松散则使开源方案在企业级能力构建上遇到瓶颈，尤其是数据安全、身份权限强管控、数据治理等方面，协同效率较差（如 Ranger 作为权限管控组件、Atlas 作为数据治理组件，跟今天的主流引擎竟然还无法做到全覆盖）。同时引擎自身的发展也对已有的开放架构提出了更多挑战，Delta Lake、Hudi 这样自闭环设计的出现使得一套存储、一套元数据、多种引擎协作的基础出现了某种程度的裂痕。
真正将数据湖概念推而广之的是AWS。AWS 构筑了一套以 S3 为中心化存储、Glue 为元数据服务，E-MapReduce、Athena 为引擎的开放协作式的产品解决方案。它的开放性和和开源体系类似，并在2019年推出Lake Formation 解决产品间的安全授信问题。虽然这套架构在企业级能力上和相对成熟的云数据仓库产品相去甚远，但对于开源技术体系的用户来说，架构相近理解容易，还是很有吸引力。AWS 之后，各个云厂商也纷纷跟进数据湖的概念，并在自己的云服务上提供类似的产品解决方案。
云厂商主推的数据仓库类产品则发展良好，数仓核心能力方面持续增强。性能、成本方面极大提升（MaxCompute 完成了核心引擎的全面升级和性能跳跃式发展，连续三年刷新 TPCx-BigBench 世界记录），数据管理能力空前增强（数据中台建模理论、智能数仓），企业级安全能力大为繁荣（同时支持基于 ACL 和基于规则等多种授权模型，列级别细粒度授权，可信计算，存储加密，数据脱敏等），在联邦计算方面也普遍做了增强，一定程度上开始将非数仓自身存储的数据纳入管理，和数据湖的边界日益模糊。

综上所述，数据仓库是个诞生于数据库时代的概念，在大数据时代随云厂商的各种数仓服务落地开花，目前通常指代云厂商提供的基于大数据技术的一体化服务。而数据湖则脱胎于大数据时代开源技术体系的开放设计，经过 AWS 整合宣传，通常是由一系列云产品或开源组件共同构成大数据解决方案。

图2. 20年大数据发展之路

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack