博客 湖仓一体解决方案

湖仓一体解决方案

   数栈君   发表于 2023-04-14 13:56  201  0

数据湖产生的背景

由于云技术的推动,企业对于跨公司、跨行业、跨领域的综合型数据的需求日趋明显,不同类型、格式数据之间的关联性碰撞越来越激烈,刺激着数据技术的创新发展,逐渐形成了大数据生态结构。当前面临的问题的复杂性、综合性、交叉性,导致数据的使用成本越来越高,企业迫切需求能够有效打破数据孤岛、解决数据主权、统一数据汇聚和共享的混合式数据平台,数据湖应运而生。

数据湖的概念
早在2011年,福布斯的一篇文章中介绍了数据湖(Data Lake)的概念,针对数据仓库中的开发周期长、维护、开发成本高、丢失细节数据等不足进行的补充。数据湖是一种大型数据存储库和处理引擎。它能够大量存储各种类型的数据,拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。维基百科对 Datalake 的解释:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。形象的描述数据湖是指用湖来形容存储数据的平台,流入湖中的水表示未经处理的原始数据,这些数据包括表格、文本、声音、图像等等。湖中的水就代表存储的各种数据,在湖中可以进行数据的处理、分析、建模、加工,处理后的数据仍然可以留在湖中。而流出的水代表经过分析后,下流所需要的数据,再到达用户端,提供信息得出结论。

数据湖的主要思想将是不用类型、不同领域的原始数据进行统一的存储,包括结构化数据、半结构化数据和二进制数据,形成一个容纳所有形式的数据的集中式数据存储集。这个数据存储集具备庞大的数据存储规模,T级别的计算能力,满足多元化的数据信息交叉分析以及大同容量、高速度的数据管道。

数据湖的优势
轻松地收集数据:数据湖与数据仓库的一大区别就是,Schema On Read,即在使用数据时才需要Schema信息;而数据仓库是Schema On Write,即在存储数据时就需要设计好Schema。这样,由于对数据写入没有限制,数据湖可以更容易的收集数据。
从数据中发掘更多价值:数据仓库和数据市场由于只使用数据中的部分属性,所以只能回答一些事先定义好的问题;而数据湖存储所有最原始、最细节的数据,所以可以回答更多的问题。并且数据湖允许组织中的各种角色通过自助分析工具,对数据进行分析,以及利用AI、机器学习的技术,从数据中发掘更多的价值。
消除数据孤岛:数据湖中汇集了来自各个系统中的数据,这就消除了数据孤岛问题。
具有更好的扩展性和敏捷性:数据湖可以利用分布式文件系统来存储数据,因此具有很高的扩展能力。开源技术的使用还降低了存储成本。数据湖的结构没那么严格,因此天生具有更高的灵活性,从而提高了敏捷性。
数据湖与数据仓库的区别
数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。数据湖与数据仓库很类似,都是数据存储,两者之间主要区别如下图所示。





数据仓库是优化后的数据库,在存储数据之前要先定义好数据结构。而数据湖是一个数据存储的平台,不需要定义数据,能够自由存储不同类型的数据。在加载数据时,数据仓库需要预先定义,即写时模式;数据湖则是在准备使用数据的时候定义数据,即读时模式。因此,数据湖提高了数据模型的定义灵活性,更能满足不同业务的需求。

随着使用数据仓库的组织看到数据湖的优势,他们正在改进其仓库以包括数据湖,并启用各种查询功能、数据科学使用案例和用于发现新信息模型的高级功能。

偶数科技湖仓一体解决方案
随着数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力。相对于数据仓库,数据湖在成本、灵活性、多源数据分析等多方面,都有着非常明显的优势。





偶数科技湖仓一体数据平台是新一代的数据基础设施,它能够依托云原生特性、计算存储分离架构、强ACID特性、强SQL标准支持、Hadoop原生支持、高性能并行执行能力等一系列底层技术的变革,实现高弹性、强扩展性、强共享性、强兼容性、强复杂查询能力、自动化机器学习支持等上层技术能力的变革,最终帮助企业有效应对大规模、强敏态、高时效、智能化等愈发明显的数字化趋势。

湖仓一体架构特点:

可管理性:湖仓一体提供完善的数据管理能力。数据湖中会存在两类数据:原始数据和处理后的数据。数据湖中的数据会不断的积累、演化,因此包含以下数据管理能力:数据源、数据连接、数据格式、数据schema(库/表/列/行)。同时,数据湖是单个企业/组织中统一的数据存放场所,因此,还具有一定的权限管理能力。

可追溯性:数据湖是一个组织/企业中全量数据的存储场所,需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。一个强大的数据湖实现,需要能做到对其间的任意一条数据的接入、存储、处理、消费过程是可追溯的,能够清楚的重现数据完整的产生过程和流动过程。

丰富的计算引擎:提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎。一般情况下,数据的加载、转换、处理会使用批处理计算引擎;需要实时计算的部分,会使用流式计算引擎;对于一些探索式的分析场景,可能又需要引入交互式分析引擎。随着大数据技术与人工智能技术的结合越来越紧密,各类机器学习/深度学习算法也被不断引入,平台已经支持从HDFS/S3/OSS上读取样本数据进行训练。因此,该湖仓一体解决方案提供计算引擎的可扩展/可插拔。

多模态的存储引擎:湖仓一体本身内置多模态的存储引擎,以满足不同的应用对于数据访问需求(综合考虑响应时间/并发/访问频次/成本等因素)。但是,在实际的使用过程中,为了达到可接受的性价比,该湖仓一体解决方案提供可插拔式存储框架,支持的类型有HDFS/S3/OSS,并且在必要时还可以与外置存储引擎协同工作,满足多样化的应用需求。

偶数科技产品与解决方案特性优势:

云原生特性、计算存储分离架构,及其带来的高弹性:利用云服务器、分布式存储等云原生技术,对数据基础设施的扩展性能进行深度优化,充分适应云上应用对高度弹性、无限扩容能力的要求,并采取计算存储分离架构,进一步提升数据基础设施的扩展灵活性;
计算存储分离架构,及其带来的强扩展性、强共享性:采取计算、存储分离的技术架构,充分适应数字化应用对计算、存储分别独立扩展的要求,增强了弹性能力,并能够支持数千节点的集群规模,尽可能避免多集群部署,并可低成本地支持跨集群的数据共享;
强ACID特性、SQL标准支持、Hadoop原生兼容,及其带来的强兼容性:具备完善的SQL标准、ACID特性的支持能力,兼容过去采用Oracle、DB2等传统交易型数据库、MPP数据库的数字化应用,并支持对接访问Hive、HDFS等Hadoop原生组件,从而兼容过去采用SQL-on-Hadoop数据库的数字化应用,实现数字化应用在数据基础设施间的平滑迁移;
高性能并行执行能力,及其带来的强复杂查询性能:面向PB级大数据,具备比MPP、SQL-on-Hadoop数据仓库更快的复杂查询性能,从而明显降低批处理、即席查询所需的时间,保证数据处理能力的高时效;
自动化机器学习支持:具备对自动化机器学习技术的支持能力,基于AutoML等技术,为业务人员提供自动化AI建模能力,实现AI模型全生命周期管理,降低AI研发与管理成本。
数据资产管理能力:具备数据标准管理、数据质量管理、元数据管理、数据资产目录(敏感数据/业务术语表关联/数据标签/血缘分析)等数据资产化管理能力,从而更好地赋予数据以价值,实现数据的资产化管理与运营。
数据服务管理能力:通过数据API管理模块提供的低门槛、可视化的操作方式,以及分组、权限管理、服务上下线、计量与计费等管理功能,帮助数据分析人员将各类数据查询语句封装为API服务,供各业务部门和业务系统调用,从而实现数据的价值变现。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群