博客 ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

数栈君发表于 2022-09-28 17:50 1437 0

8月27日，ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办，会上重磅发布了「OceanBase&ChunJun：构建一体化数据集成方案」。

这是OceanBase&ChunJun联合解决方案的首次发布，将针对分库分表的实时数据集成、跨集群/租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景，提供高可靠数据集成解决方案。

下面为大家带来具体介绍，欢迎分享给更多的开发者和爱好者共同学习、探讨。

课件获取：

关注公众号“ChunJun”，后台私信“Meetup”获得分享课件

视频回看：

https://www.bilibili.com/video/BV1mG41137ZV?spm_id_from=333.999.0.0

ChunJun&OceanBase是什么

ChunJun

一款稳定、高效、易用的数据集成框架

ChunJun 是一款高效、稳定、易用的数据集成框架，目前基于Apache Flink 实时计算引擎实现批流一体的数据读取和写入。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3ba1c913e80a1dd5a899385967f7ce5f..jpg

● ChunJun的核心能力

• 多数据源：目前已支持30+数据源，涵盖了各类数据库、文件系统等

•灵活的任务运行模式：支持开箱即用的local模式运行，也支持flink standalone、yarn、k8s等模式；支持Taier、DolphinScheduler、Dlinky等大数据调度平台

• 数据还原：支持 DML 和 DDL 同步，可以最大程度保证源端和目标端的数据和结构统一

• 断点续传：依托Flink的Checkpoint机制，可以从失败的位点重试

• 速率控制：支持多种分片方式，用户可根据自身业务调整分片逻辑；支持调整读取和写入的并发度，控制每秒读取的数据量

• 脏数据管理：支持多种方式存储脏数据，控制脏数据生命周期，并提供统计数据

OceanBase

企业级开源分布式 HTAP数据库

企业级开源分布式 HTAP（Hybrid Transaction/Analytical Processing）数据库，具有原生分布式架构，支持金融级高可用、透明水平扩展、分布式事务、多租户和语法兼容等企业级特性。

● OceanBase的核心能力

• 高可用：基于 Paxos 协议，强一致性；少数副本故障，数据不丢，服务不停；RPO=0; RTO<30s

•高扩展：在线进行水平扩、缩容；自动实现负载均衡

• 低成本：不依赖高端硬件，降低成本；极致的压缩比，节省成本

• HTAP：一套计算引擎同时支持混合负载；一套数据库，读写分离

• 高兼容：兼容 MySQL 协议与语法；降低业务改造迁移成本

• 多租户：一套环境独立运行多套业务；保证租户数据安全

ChunJun OceanBase Connector 实现

● OceanBase CDC

OceanBase作为分布式数据库，日志信息分布在集群当中不同的机器上，需要有一个工具把这些日志信息进行汇总，拿到正确、完整的日志信息。

OceanBase社区版利用CDC 组件架构进行这项工作，它主要是通过oblogproxy来提供日志拉取的服务，如果想集成OceanBase增量数据的处理，可以在自己的业务应用中去集成oblogclient来进行处理，目前已对接了ChunJun、Flink CDC、Cloud Canal等数据集成框架。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5cd35115f984adc4bd99f0c321cfd669..jpg

OceanBase 社区版 CDC 组件架构

● ChunJun Connectors 的工作模式

ChunJun中的读取和写入主要是通过Connector中的一些结构和模块来实现的，包含RDB、CDC 、NoSQL、MQ、File 等。

• RDB Connectors：基于 JDBC Connector，通过轮询支持了源表包含自增列且增量数据只有 insert 操作时的全增量一体化读取及写入。

• CDC Connectors：基于数据库的Binlog 或 Redolog，实现增量数据的读取。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/31ddd1e7efa27b783d81edd4ac7935d9..jpg

● Flink 流数据与动态表

ChunJun上的这些数据最终会在Flink进行处理，在Flink当中通过定义动态表的结构，可以将流数据在执行SQL前先转换为可以操作的表，然后通过连续查询来获取一个不断更新的执行结果。

下图就是数据从数据流转成动态表，在流数据上定义一张标，通过执行连续查询来获取不断更新的结果。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8b67387846a3c2482c91b02b46f6d143..jpg

● ChunJun OceanBase Connector 的实现

在ChunJun中主要是通过Chunjun Core模块来满足将数据读取到Flink及从Flink中写出去，其中DynamicTableSourceFactory及DynamicTableSinkFactory支持SQL类型的任务，SourceFactory及SinkFactory用来支持Json类型的任务。

如下图所示，ChunJun OceanBase Connector 的实现主要通过两种方式：一种是从Chunjun Core到JDBC Connector再到OceanBase Connector；另外一种是从Chunjun Core直接到OceanBase CDC Connector。