博客 什么是数据湖?有什么用?终于有人讲明白了……

什么是数据湖?有什么用?终于有人讲明白了……

   数栈君   发表于 2024-08-23 11:34  561  0

01 什么是数据湖?


如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。


数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。


企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。


  • 数据湖与企业的关系


数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。


另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。


企业数据中隐藏着多种能力,然而,在重要数据能够被具备商业数据洞察力的人使用之前,人们无法利用它们来改善企业的商业表现。


02 数据湖能为企业带来什么价值?


长期以来,企业一直试图找到一个统一的模型来表示企业中所有实体。这个任务有极大的挑战性,原因有很多,下面列举了其中的一部分:


  • 一个实体在企业中可能有多种表示形式,因此可能不存在某个完备的模型来统一表示实体。

  • 不同的企业应用程序可能会基于特定的商业目标来处理实体,这意味着处理实体时会采用或排斥某些企业流程。
  • 不同应用程序可能会对每个实体采用不同的访问模式及存储结构。


这些问题已困扰企业多年,并阻碍了业务处理、服务定义及术语命名等事务的标准化。


从数据湖的角度来看,我们正在以另外一种方式来看待这个问题。使用数据湖,隐式实现了一个较好的统一数据模型,而不用担心对业务程序产生实质性影响。这些业务程序则是解决具体业务问题的“专家”。数据湖基于从实体所有者相关的所有系统中捕获的全量数据来尽可能“丰满”地表示实体。


因为在实体表示方面更优且更完备,数据湖确实给企业数据处理与管理带来了巨大的帮助,使得企业具备更多关于企业增长方面的洞察力,帮助企业达成其商业目标。


  • 数据湖的优点


企业会在其多个业务系统中产生海量数据,随着企业体量增大,企业也需要更智能地处理这些横跨多个系统的数据。


一种最基本的策略是采用一个单独的领域模型,它能精准地描述数据并能代表对总体业务最有价值的那部分数据。这些数据指的是前面提到的企业数据。


对企业数据进行了良好定义的企业当然也有一些管理数据的方法,因此企业数据定义的更改能保持一致性,企业内部也很清楚系统是如何共享这些信息的。


在这种案例中,系统被分为数据拥有者(data owner)及数据消费者(data consumer)。对于企业数据来说,需要有对应的拥有者,拥有者定义了数据如何被其他消费系统获取,消费系统扮演着消费者的角色。


一旦企业有了对数据和系统的明晰定义,就可以通过该机制利用大量的企业信息。该机制的一种常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型,在该机制中,数据湖负责捕获数据、处理数据、分析数据,以及为消费者系统提供数据服务。


数据湖能从以下方面帮助到企业:


  • 实现数据治理(data governance)与数据世系。

  • 通过应用机器学习与人工智能技术实现商业智能。
  • 预测分析,如领域特定的推荐引擎。
  • 信息追踪与一致性保障。
  • 根据对历史的分析生成新的数据维度。
  • 有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。
  • 帮助组织或企业做出更多灵活的关于企业增长的决策。



03 数据湖与数据仓库的区别


很多时候,数据湖被认为与数据仓库是等同的。实际上数据湖与数据仓库代表着企业想达成的不同目标。下表显示了两者的关键区别。


数据湖

数据仓库

能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。

只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。

拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。

处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。

数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。

数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。

数据湖与数据仓库的关键区别


从上表来看,数据湖与数据仓库的差别很明显。然而,在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的。



04 数据湖的构建方法


不同的组织有不同的偏好,因此它们构建数据湖的方式也不一样。构建方法与业务、处理流程及现存系统等因素有关。


简单的数据湖实现几乎等价于定义一个中心数据源,所有的系统都可以使用这个中心数据源来满足所有的数据需求。虽然这种方法可能很简单,也很划算,但它可能不是一个非常实用的方法,原因如下:


  • 只有当这些组织重新开始构建其信息系统时,这种方法才可行。

  • 这种方法解决不了与现存系统相关的问题。
  • 即使组织决定用这种方法构建数据湖,也缺乏明确的责任和关注点隔离。
  • 这样的系统通常尝试一次性完成所有的工作,但是最终会随着数据事务、分析和处理需求的增加而分崩离析。


更好的构建数据湖的策略是将企业及其信息系统作为一个整体来看待,对数据拥有关系进行分类,定义统一的企业模型。


这种方法虽然可能存在流程相关的挑战,并且可能需要花费更多的精力来对系统元素进行定义,但是它仍然能够提供所需的灵活性、控制和清晰的数据定义以及企业中不同系统实体之间的关注点隔离。


这样的数据湖也可以有独立的机制来捕获、处理、分析数据,并为消费者应用程序提供数据服务。


下面这份文档介绍了某集团数据湖项目的建设方案,旨在解决集团内部数据分散、管理能力弱、利用能力不强等问题,实现数字化转型和智慧化运营。(文末附PPT全文下载链接)


一、项目建设背景


  • 阐述了数据湖项目的必要性,包括解决数据分散、管理能力弱、利用能力不强等问题,以及响应集团战略要求和“十四五”规划愿景。

  • 分析了集团信息化建设的现状和问题,包括业务系统信息化基本形成体系,但缺乏统一数据管理和应用体系。
  • 分析了集团业务运营和管理中存在的问题,例如数据孤岛、口径不统一、缺乏数据支撑平台等。
  • 明确了数据湖项目的总体建设目标,包括建立集团数据湖及应用平台,提升智慧化经营决策管理能力,实现“4智”应用基础支撑。
  • 展示了数据湖及应用平台的总体架构,包括六个平台、四个中心、三个保障体系和一个统一门户。
  • 详细阐述了数据湖项目预期实现的“七步走”目标,解决数字化转型痛点。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d8c3a72c1e75d11a167b64d9df2fe73f..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6ec36220e5f5d47cb0977e52869a0d53..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5724cbe32af3341b7b97429b7aca5896..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b175ad1eb0a9bb70796505225067a8b1..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5cc4a4755a987f315f867f8f212200a6..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/216cbc61f9332dd2a521bda19cfc59d0..jpg

二、项目建设规划

  • 阐述了数据湖项目建设的总体思路,包括四个阶段的建设目标和主要任务。

  • 详细展示了数据湖及应用平台的架构图,包括各个平台、中心、保障体系的功能和关系。
  • 展示了数据湖及应用平台在四个阶段的建设内容和架构演进过程。
  • 展示了集团和事业部数据湖的数据区划分和数据流,以及数据采集、汇聚、治理、分析、共享服务和数据应用等环节。
  • 分析了集团数据湖与事业部数据湖之间的关系和定位,并提出了建议。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5e73a6fa108c2542aa345015ffdf3780..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9425003ae886ad992f41e14a0f15742e..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/87b7916d03c618fc0fd3f180a0f140bf..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f80b3a5d723f38f7de087237f65f79d9..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/564f322faf07c987cd5a4e1ca383cdaf..jpg


三、项目建设方案


  • 明确了数据湖项目建设的范围,包括平台框架体系规划、技术基础平台搭建,集团C端用户数据采集、入湖、治理、共享服务和用户分析应用。

  • 再次阐述了数据湖项目建设的总体思路,并以集团C端用户需求为试点,打通数据湖链路。
  • 详细展示了数据湖及应用平台的逻辑架构,包括数据汇聚、存储、治理、分析、共享服务、数据应用等模块,以及数据流和数据应用。
  • 展示了集团和事业部数据湖的数据区划分和数据流,以及数据采集、汇聚、治理、分析、共享服务和数据应用等环节,并标明了本期项目的范围。
  • 介绍了数据湖平台框架体系规划的流程和方法,包括行业最佳实践、平台提升机会分析、专家知识、战略定位等。
  • 详细介绍了平台搭建的流程,包括需求沟通、环境准备、平台安装部署、平台部署验证、平台优化完善等步骤。
  • 介绍了数据采集汇聚的架构和流程,包括数据汇聚需求、数据源、汇聚知识库、采集汇聚引擎、采集汇聚知识库、汇聚知识库等。
  • 展示了数据体系建设的主要流程,包括项目前期准备、业务需求分析、应用概要设计、系统设计、系统开发、系统测试与验收、系统管理与维护等步骤。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f3ae470c7240bab2f802429788fde3d9..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2dbf9392f891e12a78708b2a2714005b..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/60c6395c9e2c0ad21dfae642464cce1c..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3a1a78ab28a13a032ce1c1082f8ef5b3..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2ee59c16edd37cdd30193de372b9ba94..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/41a8040034ffabc7f17146058b592a03..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/119c7ae6c45061d2587adccabf101810..jpg

详细介绍了信息调研的流程和方法,包括资料收集、系统与表级调研、字段级调研、样本数据分析、调研报告编写、调研报告评审等步骤。

  • 数据资源中心建设—步骤二:①数据模型设计方法
    介绍了数据模型设计的方法,包括概念模型、逻辑模型、物理模型,以及行业数据模型选择和客户化过程。

  • 数据资源中心建设—步骤二:②数据区定位与数据模型设计流程
    介绍了数据资源中心各个数据区的定位和作用,以及数据模型设计流程,包括数据模型设计步骤、基础数据区、主题/分析数据区、集市区等。

  • 数据资源中心建设—步骤二:③基础区数据模型设计
    以集团C端用户为例,展示了基础区数据模型设计的方法和内容,包括行业主题模型设计参考、用户模型设计部分参考等。

  • 数据资源中心建设—步骤二:④用户标签数据模型设计
    以集团C端用户为例,展示了用户标签数据模型设计的方法和内容,包括用户画像主题建模、ID识别、基础区建模、数据标准化等。

  • 数据资源中心建设—步骤二:⑤用户标签设计
    详细介绍了用户标签设计的流程和方法,包括源数据、标签构建、标签体系等。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/0c102665152575983f43262ab19fc76a..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/1a2bfd22deaa592cf9bd41645704b829..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/329ece3342198e7e7644aafc674d4c9b..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3463060a37a97ea8837736749b9d7ef5..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/730d0a868a6d2ac2b6178d3901655958..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/772a4ad4ae03a3a7e1ed1beddcf3f6da..jpg

  • 数据资源中心建设—步骤三:数据开发体系框架
    展示了数据开发体系框架,包括数据汇聚平台、ETL开发管理、ETL任务管理、数据汇聚平台、元数据管理库等模块。

  • 数据资源中心建设—步骤三:数据开发流程与支撑工具
    详细介绍了数据开发流程,包括数据开发准备、建库建表、数据映射、ETL配置开发、单元测试、ETL调度配置、系统集成测试等步骤,以及数据开发工具支撑。

  • 数据资源中心建设—步骤四:数据统一调度管理
    介绍了数据统一调度管理的架构和工具,包括ETL Automation、调度程序生成器、历史明细引擎、元数据、数据质量、数据标准、数据生命周期、批量、接口、直连接口、Cube构建引擎等模块。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b5a4f2d9a1755d736ebda0076260c1b8..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/1310d9e9841f005489adef6e22475cbb..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cd83b91ad2c18369cd8a7451b44141da..jpg

  • 详细介绍了数据标准管理的流程和方法,包括标准框架、现状调研、标准设计、标准映射、标准执行、维护反馈等步骤,以及数据标准工具支撑。
  • 详细介绍了元数据管理的流程和方法,包括元数据采集、元数据使用、元数据地图、知识中心等模块,以及元数据管理工具支撑。
  • 详细介绍了数据质量管理的流程和方法,包括数据质量检查规则管理、工单管理、检查模板管理、数据质量库、元数据资料库、数据质量探查、质量评分管理等模块,以及数据质量管理工具支撑。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4eff6be5428d94277fea2b636d0cd080..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8aa4a11f81b3e084e028ef942326e55e..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9d5a9f0f4acad75d2859c26bf25ecd8b..jpg


  • 介绍了数据分析试点应用,运用BI工具对集团C端用户进行综合分析,提升效率、用户量,辅助决策,助力产品销量提升。
  • 介绍了数据服务试点应用,基于供需对接建立数据服务共享体系,解决数据共享和应用难题。
  • 介绍了数据共享服务试点应用,基于C端用户建立数据共享服务流程,实现数据共享资源的申请、审核、授权和使用。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3248b971e94c0e8cb53f7aaef5b432d3..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fe1c751fbf5410ca51b32a1857544cf7..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6228ef1dee20051ad7a2cc0f5979efc7..jpg

内容为转载,如侵删
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack
0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群