博客 基于数据中台的大数据治理,聊聊数据集成

基于数据中台的大数据治理,聊聊数据集成

   数栈君   发表于 2023-01-12 16:52  501  0

数据中台之数据集成



1


在现代企业中,由于使用场景、业务形态、技术选型、开发架构的差异,往往有多个异构的、基于不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了「信息孤岛」。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。


在企业构建数据数据中台来解决数据互通和共享的要求下,「数据集成」是打通信息系统和数据中台的管道和桥梁,是构成数据中台全、统、通的重要基础。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/85f933e34fc9f122a1d563fdc9db236b..jpg

数据中台 全 统 通


本文所讲的数据集成,主要指的是从不同的数据存放介质将数据同步至数据中台的环节,在某些场景下,也可以称作「数据采集」「数据同步」「数据上云」


2

准备工作


在数据集成实施开发前,我们一般要进行以下调研和准备工作:


  • 数据源分类见上一期的 数据中台之数据源,确定数据源种类,并根据数据及时性要求,确定采集的技术组件

  • 网络和环境确定数据源的网络和环境信息,根据实施集成方案,对现有的网络和环境进行必要的改造和优化

    网络类型

    IDC、公有云、专有云、VPC等

    网络传输

    公网直连、白名单、VPN、专线等

    带宽及限制

    传输带宽、请求频次

    数据库环境

    主备、高可用

    连接方式

    JDBC、API、Restful、WebService、SDK


  • 数据内容调研数据的全量大小、增量大小、分布情况

  • 数据质量调研数据的增量标记、索引、主键信息等

  • 数据范围调研需要集成的数据范围,筛选出需要集成到数据中台的相关数据,一般以支撑业务流程或带业务属性的数据为主


3

业务架构


针对采集的业务内容,以及常见的同步分类,我们将数据集成的业务架构整理如下:


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dcc77b914df76756a5b559c597d3137c..jpg

数据集成的业务架构


4

集成流程


以下通过几个典型的数据同步场景案例,来介绍数据同步流程。


3.1 关系型数据库离线同步流程


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a50b492564855dbe7d0d7b4fb82e3aa1..jpg

关系型数据库离线同步流程


3.2 API类数据同步


API类数据同步


3.3 实时类数据同步


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f4257c2424e3bef771f42588d9f6565e..jpg

实时类数据同步


5

袋鼠云数栈 DTinsight

数据同步模块


数据同步模块是在各个存储单元之间执行数据交换的管道。


为了在「DTinsightIDE」进行大规模数据集的挖掘与计算,通常的做法是在任务执行前将数据传输至DTinsightIDE,并在任务执行结束后将计算结果传输至外部存储单元(例如MySQL等应用数据库)


数据集成的作用如下图所示:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/522adc9029b71caa151f7e0eed4d861b..jpg

袋鼠云数栈-数据同步模块


袋鼠云数栈-数据同步模块的具有以下特性:


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群