博客袋鼠云产品功能更新报告06期（离线开发篇上）｜数栈产品功能升级，做产品我们是认真的！

袋鼠云产品功能更新报告06期（离线开发篇上）｜数栈产品功能升级，做产品我们是认真的！

数栈君发表于 2023-07-13 10:23 1509 0

离线开发平台

新增功能更新

1.数据源

新增功能说明

背景：目前在数据源页面中查看 meta 数据源的 schema，只能在 jdbc url 中查看，对于用户来说不方便。

新增功能说明：数据源页面展示当前项目的schema名称，以及能做meta schema的快捷查找，新增 meta schema 的筛选项，并将 meta schema 作为单独的字段进行展示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/f121a1717a559a843890ad5489a2b486..jpg

（新增功能示意图）

2.【数据开发】Hive SQL

新增功能说明

• Hive SQL 支持语法提示、表联想：

在 SQL 编写时，离线 IDE 支持表名、字段名、关键字、函数名等内容的语法提示

• Hive SQL 运行日志支持实时打印、展示任务运行进度、支持任务停止：

Hive SQL 执行临时运行时，展示执行进度并实时打印日志，日志包含执行的 map、reduce 的情况，任务运行过程中，支持停止运行

3.资源支持版本管理

新增功能说明

资源版本支持记录资源最近的十个版本，支持对版本资源进行「回滚至此版本」「下载」「删除」操作。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/33329ba2441fe2a22614e109b37ba6f5..jpg

（新增功能示意图）

4.【数据同步任务】字段变化

新增功能说明

当数据同步任务的字段发生变化时，可通知字段的变化及影响的任务信息。

数据同步中新增元数据校验高级参数“metadataCheck”，当值为“true”时，对于数据同步任务的临时运行/周期实例运行/补数据实例运行/手动实例运行前检查源表或目标表的表结构是否发生变更（字段增加、字段减少、字段类型变更），如果有变更则实例状态变为提交失败，并会在日志中打印变更内容。

如果任务配置了告警规则，且触发条件是“失败”时，则会在告警中打印失败原因和字段变动情况。

5.支持给任务打标签

新增功能说明

背景：客户期望可以给任务打标签，比如给部分任务打上“合同”的标签，给部分任务打上“客商”的标签，可以按标签去执行运维操作，例如：补数据、告警。

新增功能说明：在数据开发页面，支持创建标签和给任务指定标签，并在运维中心进行补数据和告警配置操作时，支持以标签为维度进行任务配置。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/ca38d88b589c995bc24b644be7e0a457..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/ee2ccf9b60b8c9181501608187ea8f4f..jpg

（新增功能示意图）

6.离线支持代码检查规则

新增功能说明

• 在「数据资产->数据治理」中可以开启或新增代码检查规则

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/71bf22a4b7040219245508a715ee1086..jpg

• 在「离线开发->项目管理->操作设置」中支持开启代码规则和选择生效范围，目前仅支持创建 Hive SQL、Spark SQL、Impala SQL、Inceptor SQL 四种任务的代码检查规则

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/2675a9fa416c6dd40d6f6267b3c2fa0c..jpg

• 开启规则后，在 IDE 界面中可以手动进行 SQL 规范性检查，在日志中打印检查结果，任务运行和提交时也会进行 SQL 规范性检查

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/6587841e17eebe31256f43d9fb939fc2..jpg

（新增功能示意图）

7.任务保存支持版本管理

新增功能说明

• 增加保存版本的版本记录，记录未提交仅保存的内容

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/beb09ca11ae9761eb0834eeec19f9c71..jpg

• 在发生异常/系统自动登出时会自动保存，并在用户重新登录时进行提示

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/eb712642f2cdf54aa8ff12b94422d407..jpg

（新增功能示意图）

8.任务目录支持自定义排序

新增功能说明

在「项目管理->操作设置」中支持开启自定义目录排序，可以自由拖动任务、临时查询、资源、函数、组件、标签和文件夹改变目标结构；关闭自定义目录排序后，任务和文件夹按默认方式排序（名称首字母排序），禁止自由拖动。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/ed3941a85bdf8be8c21f368021af2918..jpg

（新增功能示意图）

9.在 guardian 进行权限校验

新增功能说明

Inceptor SQL 运行时支持用数栈账号绑定的 Idap 账号进行任务提交的用户认证，并在 guardian 进行权限校验。

用户使用数栈账号登录，UIC 绑定 Idap 账号，由 tdh 自己的 guardian（类似 ranger）实现权限策略的配置，数栈关闭 web 层权限管控，所有的权限判断经过 guardian 策略，使用 Idap 账号登录 guardian 提交任务。在如图所示位置配置 guadian 的代理地址。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/26fa56e3ca7fe807ca362fcbb0b27d2e..jpg

（新增功能示意图）

10.数据同步

新增功能说明

• TiDB、GaussDB、GreenPlum 作为数据源的数据同步任务配置时支持选择 Schema

• MySQL 同步 Sharding-Proxy 插件支持向导模式读取

• 数据同步支持 OceanBase 读取和写入

11.HashData 数据同步读写

新增功能说明

HashData 支持作为数据同步的源端和目标端，支持源端时支持自定义 SQL、数据过滤、切分键填写（并发读写）、断点续传、增量同步；作为目标端时支持导入前准备语句、导入后准备语句、一键生成目标表、主键冲突时支持 insert 和 update。

支持作为整库同步的目标端和源端。

12.StarRocks 数据同步读写

新增功能说明

StarRocks 支持作为数据同步的源端和目标端。作为源端时支持自定义 SQL、不支持数据过滤、不支持切分键填写（StarRocks flinkx 是用 streamload 同步的，不需要指定切分键，只要指定并发数，SQL 的执行计划里就会按对应的并发自己拆分出来多通道同步）、不支持断点续传、不支持增量同步。

作为目标端时不支持导入前准备语句、不支持导入后准备语句、支持一键生成目标表、主键冲突时仅支持update。支持作为整库同步的目标端和源端。

13.TDengine 数据同步读取

新增功能说明

TDengine 支持作为数据同步的源端，支持源端时支持自定义 SQL、数据过滤、切分键填写（并发读取）、断点续传、增量同步。支持作为整库同步的源端。

14.运维中心异常树构建

新增功能说明

背景：当实例在提交和运行过程中出现异常情况，无法直观地进行原因分析，比如：

• 当前实例一直处于等待提交状态没有按计划时间开始运行，是哪个或哪些上游出现异常导致的？

• 当前实例运行失败或超时，会影响哪些下游实例？

新增功能说明：

异常树构建能够很好地解决以上的问题：

• 在实例调度流程中，上游依赖检查中，如果“上游依赖中存在异常”，将会打印出所有阻塞实例信息（所属租户、所属项目、所属产品、责任人、状态）

• 实例调度流程展示流程完成日期和时间

• 实例依赖视图展示当前实例的定位

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/eccfd73fc2678a5f1592a5cf72b05be0..jpg

（新增功能示意图）

15.运维中心

新增功能说明

背景：目前对 Hive SQL 任务的运行支持比较薄弱，例如没有打印出 yarn 上的日志，一旦任务开始执行便无法中止，比较影响数据开发用户的调试。客户期望对效率低、占用资源高的任务进行识别和及时管控。

新增功能说明：支持对 Hive SQL 实例进行运行过程的资源使用情况展示，并对于实例进行资源监控并配置告警。

• Hive SQL 实例的「实例详情->运行记录」中展示任务资源使用走势图

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/02581658a14e316dacdb2bd321c1babd..jpg

• 创建告警规则时，支持对 Hive SQL 资源占用情况进行监控

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/b5ddb36ca513d54e31e722cfece9c7e8..jpg

（新增功能示意图）

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack