这段时间,我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,包括对离线平台数据同步功能的更新,数据资产平台血缘问题的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。
以下为袋鼠云产品功能更新报告第五期内容,更多探索,请继续阅读。
离线开发平台
1.支持工作流参数
新增功能说明
2.支持项目级参数
新增功能说明
3.绑定的项目支持解绑
新增功能说明
4.补数据支持对各类型参数进行一次性赋值
新增功能说明
5.临时运行可查看运行历史
新增功能说明
6.告警接受人支持填写其他参数
新增功能说明
7.数据同步的读写并行度支持分开设置
新增功能说明
8.脏数据容忍条数支持按项目设置默认值
新增功能说明
背景:同步任务中的脏数据默认容忍条数原本固定是100,部分客户实际接受的容忍度是0,导致每配置一个同步任务就需要改一下脏数据容忍条数的设置值,使用不便。
新增功能说明:在离线「项目管理->项目设置->操作设置」中,支持设置数据同步任务脏数据默认容忍条数和脏数据默认容忍比例。配置完成后,新建数据同步任务在通道控制模块会展示默认值。
(新增功能示意图)
9.数据同步读取 hive 表时可选择读取多个分区的数据
新增功能说明
背景:数据同步读取 hive 表时目前仅支持选择一个分区读取,部分客户场景下需要把多个分区的数据读取出来写入目标表。
新增功能说明:读 hive 表时分区可以用 and 作为连接符筛选多个分区进行数据读取。
(新增功能示意图)
10.任务运行超时中断
新增功能说明
11.表管理的表查看交互优化
新增功能说明
12.hive 数据同步的分区支持选择范围
新增功能说明
当 hive 类数据源作为数据同步的来源时,分区支持识别逻辑运算符“>”“=”“<”“and”,例如“pt>=202211150016 and pt<=202211200016 ”,即代表读取范围在此之间的所有分区。
13.FTP 大文件拆分支持自定义解析文件的拆分
新增功能说明
14.版本对比功能优化
体验优化说明
15.整库同步写 hive 时支持对分区表指定分区名称
体验优化说明
当整库同步选中 hive 类的数据同步目标时,可以指定分区字段的名称。
(体验优化示意图)
16.离线支持配置指标任务作为上游依赖
体验优化说明
目前离线已经支持的跨产品任务依赖包括:质量任务(关联)、标签任务,加上指标任务后整个数栈的所有离线任务就可实现相互的依赖了。
(体验优化示意图)
17.脏数据管理概览图显示具体时间
体验优化说明
(体验优化示意图)
18.通过右键快捷键可查看任务日志
体验优化说明
(体验优化示意图)
19.任务执行进度优化
体验优化说明
执行进度前展示等待时长。
(体验优化示意图)
20.其他优化项
体验优化说明
· vertica 支持向导模式数据同步
· 任务下线后,支持查看任务实例
· RDB 任务支持在任务间及工作流里的参数传递
· 数据同步任务在创建发布包时被选中时支持关联到表:数据同步任务目标端一键生成的目标表,支持关联至发布包中
· SQL 语句支持:Desc database、Show database、Create database、Drop database、Show tables、Create table、Desc table、Alter table、Drop table、Creat function
· 表联想功能优化:spark sql、hive sql、gp sql 编写 SQL 代码时,支持表联想功能,联想范围:离线对接和创建 schema 下的表
· 删除任务、资源等内容时,提示内容名称
实时开发平台
1.【数据还原】支持一体化任务
新增功能说明
背景:一个任务即可完成存量数据的同步,并无缝衔接增量日志的采集还原,在数据同步领域实现批流一体,常用于需要做实时备份的数据迁移场景。
比如在金融领域,业务库出于稳定性考虑,无法直接面向各种上层应用提供数据查询服务。这时候就可以将业务数据实时迁移至外部数据库,由外部数据库再统一对外提供数据支撑。
新增功能说明:支持存量数据同步+增量日志还原的一体化任务,支持 MySQL—>MySQL/Oracle,在创建实时采集任务时,开启【数据还原】,还原范围选择【全量+增量数据】。
(新增功能示意图)
2.【数据还原】支持采集 Kafka 数据还原至下游
新增功能说明
背景:当用户对 Kafka 数据没有实时加工的需求,只希望能将 kafka 消息还原至下游数据库对外提供数据服务时,可以通过实时采集配置化的方式,批量完整此类采集还原任务,不需要一个个的维护 FlinkSQL 任务。
新增功能说明:支持将 Kafka(OGG格式)数据,采集还原至下游 MySQL/Hyperbase/Kafka 表,在创建实时采集任务时,源表批量选择 Kafka Topic,目标表批量选择 MySQL 表,再完成表映射、字段映射。
(新增功能示意图)
3.任务热更新
新增功能说明
背景:目前对于编辑修改实时任务的场景,操作比较繁琐。需要在【数据开发】页面完成编辑后,先到【任务运维】处停止任务,然后回到【数据开发】页面提交修改后的任务,最后再回到【任务运维】页面向 YARN 提交任务。
新增功能说明:当前更新后,支持修改「环境参数」、「任务设置」后,在数据开发页面提交任务后,任务运维处自动执行「停止-提交-续跑」操作。
4.数据源
新增功能说明
新增 ArgoDB、Vastbase、HUAWEI ES作为 FlinkSQL 的维表/结果表,均支持向导模式。
5.【表管理】合并原有的 Hive Catalog 和 Iceberg Catalog
体验优化说明
背景:这两类 Catalog,实际都是依赖 Hive Metastore 做元数据存储,Iceberg Catalog 只需要在 Hive Catalog 基础上,开启额外的一些配置项即可,所以将这两类 Catalog 做了合并。
体验优化说明:创建 Hive Catalog,可以选择是否开启 Iceberg 表映射,如果开启了,在这个 Catalog 下创建 Flink Table 时,只支持映射 Iceberg 表。
(体验优化示意图)
6.【任务运维】优化任务停止时的状态说明
体验优化说明
背景:在保存 Savepoint 并停止任务时,因为 Savepoint 文件可能会比较大,保存时间需要比较久,但是状态一直显示「停止中」,用户无法感知停止流程。并且如果保存失败了,任务依然会一直显示「停止中」,任务状态不符合实际情况。
体验优化说明:在保存 Savepoint 并停止任务时,「停止中」状态会显示当前持续时间,以及保存失败的重试次数。当最终保存失败时(代表任务停止失败),此时任务会自动恢复至「运行中」状态。
(体验优化示意图)
7.【启停策略】创建启停策略时,支持强制停止配置项
体验优化说明
背景:目前创建的启停策略,默认都是执行保存 savepoint 的逻辑。但是当保存失败时,任务不允许自动做出选择帮用户丢弃 savepoint 进行强制停止,所以我们将这个的选择权,放给了用户。
体验优化说明:创建启停策略,有个强制停止的开关。
(体验优化示意图)
8.血缘解析
体验优化说明
支持过滤链路节点类型,支持全屏查看,支持搜索,任务节点支持查看状态。
(体验优化示意图)
9.系统函数
体验优化说明
10.其他优化项
体验优化说明
· 数据还原:开启数据还原的实时采集任务,支持生成 Checkpoint 并续跑
· UI5.0:更新 UI5.0 前端样式
数据资产平台
1.【血缘问题】冗余血缘移除
体验优化说明
2.【血缘问题】关键字支持
体验优化说明
· 当表发生 delete、drop、trancate 数据清空时,表与表之间、表与任务之间的血缘关系删除
· 当任务下线、删除时,表与表之间血缘依旧存在,表与任务之间的血缘关系删除
3.【血缘问题】重合数据源
体验优化说明
4.【血缘问题】数据源唯一性区分
体验优化说明
5.【全链路血缘】表→指标
体验优化说明
数据资产平台已初步实现数栈内部全链路血缘关系的打通,包括表、实时任务、离线任务、API、指标、标签。
表→指标:
• 根据指标平台的【指标的生成】记录【表→指标】之间的血缘关系
• 指标的生成包括【向导模式】、【脚本模式】
• 指标平台如果有变动,比如删除、下线了某个指标,资产平台需要更新血缘视图
• 支持指标的字段血缘解析
(体验优化示意图)
6.【全链路血缘】表→标签
体验优化说明
· 根据标签平台的【标签的生成】记录【表→标签】之间的血缘关系
· 标签通过实体和关系模型创建,实体中需要关联主表和辅表,关系模型中有事实表和维表,并且关系模型可存储为实际的物理表,因此血缘链路包括数据表、标签
· 标签平台如果有变动,比如删除、下线了某个标签,资产平台需要更新血缘视图
· 支持标签的字段血缘解析
(体验优化示意图)
7.【全链路血缘】实时任务
体验优化说明
· 任务类型有两种:实时采集任务和 FlinkSQL 任务,FlinkSQL 任务存在字段血缘关系
· 支持 kafka 侧的血缘关系展示
(体验优化示意图)
8.血缘展示优化
体验优化说明
· 右上角筛选项:优化为多选菜单,表、离线任务、实时任务、API、标签、指标(默认选中全部维度,当前进入的维度选中且不可取消)
• 字段血缘:不展示右上角的筛选项
• 逆向血缘全局提示:
a.进入血缘关系页面,进行全局提示:“进入血缘每个节点都可右击查看该节点的全链路血缘,存在逆向可展开节点时建议右击查看~”
b.右击查看当前节点的血缘会更完整
(体验优化示意图)
9.DatasourceX:【存储】、【表行数】逻辑优化
体验优化说明
背景:直接从 metastore 读取是不准确的,之前 flinkx 是支持通过脚本更新存储和表行数,flinkx 升成 datasourcex 之后,相关 analyze 逻辑没有带过来。
体验优化说明:datasourcex 优化了对部分数据源的【存储】、【表行数】的脚本统计,包括 hive1.x、2.x、3.x(cdp/apache)、sparkthrift、impala、inceptor。
10.DatasourceX:【存储大小】【文件数量】更新逻辑优化
体验优化说明
背景:数据治理新增了 meta 数据源的文件数量,又因为文件数量这个属性是 datasourcex 支持,普通的数据源也需要新增这个属性。
体验优化说明:datasourcex 对部分数据源的【存储大小】【文件数量】的脚本统计,数据治理结束后,更新【存储大小】【文件数量】逻辑。
11.前端页面升级
体验优化说明
指标管理平台
1.【demo封装】demo功能优化
体验优化说明
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack