博客 实时开发平台丨袋鼠云产品功能更新报告10期

实时开发平台丨袋鼠云产品功能更新报告10期

   数栈君   发表于 2024-06-06 11:18  660  0

新增功能更新


1.数据开发 SQL Query 支持 streaming、batch 模式选择

  新增功能说明  

背景:此前只支持 streaming 模式。


新增功能说明:针对 FlinkSQL 任务(1.16),任务设置中支持 Query 执行设置,可选择执行方式为流模式或者批模式。


「Stream 模式」

• 定义:任务以流模式查数据

• 查询时长:将任务开始在 Flink 引擎上执行,作为计算起点,当查询时间达到此处设置上限时自动停止查询

• 结果最大显示条数:当查询到的数据条数满足设置值时,数据总量不再增加,新的数据覆盖最早的数据

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7f98bf39b2d62b4f06e953bb3cb3c74c..jpg


「Batch 模式」

• 定义:任务以批模式查数据,数据查完后暂存,一次性返回至平台展示,支持结果下载,下载功能同 stream 模式

• 查询时长:查询时间达到此处设置上限时自动停止查询,若在此时间内数据返回结束则打印结果,否则结果为空

• 结果最大显示条数:查询/下载结果上限为此处设置的条数

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/feb2a1dfc05738cf24b7ea75742eccac..jpg

(新增功能示意图)


2.数据开发 kafka 格式新增 attunity json

  新增功能说明  

支持基于 Attunity json 的读取类型采集/输入样例数据,自动映射 Flink 表。使用 json 平铺解析的方式可以通过添加自动映射功能来实现,从而满足需求。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c70becc1761001eab888312a331b42fd..jpg

(新增功能示意图)


3.实时采集向导模式结果端支持 gp

  新增功能说明  

实时采集1.12&1.16版本支持 Greenplum 目标表写入能力,为用户提供了更加灵活和高效的数据处理能力。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f804351686467782ecc409210f80fcf4..jpg

(新增功能示意图)


4.FlinkSQL 维表支持 OceanBase

  新增功能说明  

FlinkSQL1.16 版本支持 OceanBase 维表读取能力,

为用户提供了更加灵活和高效的数据处理能力。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c571b0dece1f6ad03bf14642a7afce0e..jpg

(新增功能示意图)


5.实时湖仓通过后端文件配置控制湖表的展示和其他操作

  新增功能说明  

背景:用户对实时湖仓表管理中表的范围提出需求,此前实时湖仓不支持展示在其他平台或底层创建的表,并需要对表的增删改查操作设置权限限制。


新增功能说明:

• 优化实时湖仓获取 HMScatalog 元数据的方式


• 通过配置项参数,控制 IED 编辑 SQL 和湖仓管理-表展示的范围、控制表操作的范围,当前配置项仅针对 HSMCatalog


• 优化表管理 Catalog 展示性能问题


6.实时湖仓 HMSCatalog 创建增加 Warehouse 参数

  新增功能说明  

背景:当前不支持在创建 HMSCatalog 时配置 Warehouse 地址,只能使用默认的地址,且不做展示。


新增功能说明:增加必填 Warehouse 项,回填 hive-site 文件内 Warehouse 地址,湖仓创建 catalog 时可以指定存储路径而不是按默认的路径进行存储。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/deac8a1bb32ba431942a252719784933..jpg

(新增功能示意图)


7.版本适配和支持

  新增功能说明  

• 实时湖仓 Hive 适配 CDH6.2.1 对应的 Hive 2.1 版本


•实时湖仓 FLinkSQL1.12 支持运行 DTCatalog 和 IcebergCatalog


• 实时计算平台支持 Hbase2.x 数据源作为 FLinkSQL 维表且版本支持1.16

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2b3ec9e8974d4bc68fd2b0cb6f233bdb..jpg

(新增功能示意图)


8.数据开发页面支持高级检索方式

  新增功能说明  

背景:此前的搜索不区分具体的查询类型,导致查询效率低下。


新增功能说明:数据开发页面新增支持高级检索方式,如支持代码检索等功能,同时增加支持根据代码内容搜索相对应的任务,提高搜索的实用性。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8491a1e2066b9361af8795f56134673b..jpg
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/73c16e430e00f6d0ba6af1c038c6ad1d..jpg

(新增功能示意图)


9.FlinkSQL&实时采集向导模式增加脚本预览功能

  新增功能说明  

FlinkSQL&实时采集向导模式增加脚本预览功能,前端支持功能包含:搜索、复制、read-only、下载。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/ec8f69132b42c67b4e586038b3ec7277..jpg
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f78678ef8a5a7744495adcfd45e2d924..jpg

(新增功能示意图)


10.字段自动补全功能

  新增功能说明  

背景:数据开发在编写 FlinkSQL 时,从当前的拓扑图编写中无法得到具体的一些字段信息。


新增功能说明:

• 实时计算数据开发众的 FlinkSQL,支持源表、维表、结果表字段在 SQL 编辑器 IED 编辑时的字段自动补全功能,提高开发 SQL 的效率


• 支持向导模式和脚本模式

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4e4eb962454a3fbf82d769615d53f0dc..jpg

(新增功能示意图)


11.适配 kafka3 且支持 kerberos 认证

  新增功能说明  

• 支持 FlinkSQL1.16 版本作为源表、结果表


• 支持实时采集1.16版本作为来源表、目标表


• 支持开启 kerberos 认证方式


• 支持实时湖仓 DTCatalog 作为源表、结果表


• 支持调试运行

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/96abe4404b84238efd22c5d92699bb29..jpg

(新增功能示意图)


功能优化


1.任务运维实时任务并行度修改的热更新

  体验优化说明  

背景:在修改环境参数中的任务并行度参数后,为保证尽快生效,平台会自动停止任务后重启,这让实时任务有了一个停止时间,重启耗时会比较久。


体验优化说明:在修改任务并行度参数后,不需要停止任务,提交后可直接生效,需要引擎出方案修改。支持热更新的参数如下:

• FlinkSQL 插件参数:维表 all 改为 lru、查询超时时间

• Flink参数:并行度、checkPoint 参数

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9938c5256e54abba512b7289a5076080..jpg

(体验优化示意图)


2.任务运维任务支持跳转 FlinkUI

  体验优化说明  

背景:Flink Dashboard 展示了一些平台没有展示的运行及日志等信息,对有经验的数据开发来说更方便排查问题。


体验优化说明:实时计算所有“运行中”状态(实际非 application 运行中,需要 job 运行中才能跳转成功)的任务的运维页面在下图位置显示 FlinkUI 跳转入口。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/393efda428d95ecb5d09c7aac8393e29..jpg

(体验优化示意图)


3.数据开发任务锁覆盖逻辑优化

  体验优化说明  

背景:目前同一用户在两个窗口同时编辑任务时,A窗口先保存,B窗口再次保存时,覆盖逻辑默认A覆盖B,会导致后保存版本内容丢失。


体验优化说明:任务锁覆盖逻辑优化

• 版本记录增加保存版本,平台异常登出时自动保存任务

• 多人编辑同个任务/同一用户在多个窗口编辑同个任务并出现保存冲突时,可让用户选择保存版本

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fa4edfb3443a8d582275e10de7b2940b..jpg
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f774ee8576df8d416f09c73d9778203b..jpg

(体验优化示意图)


4.任务运维血缘节点信息优化

  体验优化说明  

针对 FlinkSQL 和实时采集任务,表级血缘图中的源表、维表与结果表的节点,点击时显示数据源信息,对交互与任务的详细浮窗不一致问题进行优化。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e69a23d710d2ab63ac50be78133f8364..jpg

(体验优化示意图)


5.实时开发选择资源时,直接根据任务类型限制能选择的资源类型范围

  体验优化说明  

背景:需要通过资源创建的任务类型,在创建时应有校验资源类型是否选择正确的功能,而不是在选择资源时直接根据当前任务类型进行可选资源范围过滤,导致错误提示滞后,增加用户误操作成本。


体验优化说明:选择资源时直接根据任务类型限制可选范围,其余不可选的资源类型在下拉时置灰无法选中

• Flink 可选范围为 jar

• PyFlink 可选范围为 py 文件


6.任务信息清理

  体验优化说明  

背景:

• 某个任务由于业务变更需要修改逻辑或在较长的一段时间内不需要执行时,在任务运维列表中还持续存在会造成信息干扰,需要进行下线操作,和提交形成逆向的操作闭环

• 任务下线后可能隔断时间会重新提交,也可能很长一段时间内不会再次提交,目前所有任务的 cp sp 信息都保留会导致无用文件的堆积,任务删除时任务相关的信息更需要完整删除

• on k8s 的任务在 jobgraph 创建之前被取消或异常失败不会被清理,只有在正常结束或者 jobgraph 调度之后再被取消才会正常清理;on yarn 的任务,如果任务 cancel 会删除数据,但是如果直接 kill application 则不会删除 zk 数据,同样会导致无用文件的堆积


体验优化说明:

• 实时开发任务下线后可选择清理 check point、save point 信息,任务异常状态时清理 zk 信息


• 任务下线时可选择清理运维记录及日志数据,任务删除时自动删除运维记录及日志数据


7.健康分优化

  体验优化说明  

项目管理导航栏下新增【健康分管理】子页面,里面分为【健康分指标】(默认展示)和【健康分等级】两个 tab。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8bf22e6dc3c16c177fe00f3a4b51dbdb..jpg
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7f514bf6d382642a59c0b78634ad61e0..jpg

(体验优化示意图)


8.前端改造

  体验优化说明  

• 将 React Router 从 v3.x 升级到 v6.x


• 对前端易用性性能进行改造,改进首屏性能,通过易测做量化,改进 FPS 场景任务


9.向导模式下 AS 别名隐藏

  体验优化说明  

历史版本的1.10支持维表 AS 别名,后续在1.12及以上使用 Flink 语法则不支持。为防止使用上出现问题,将向导模式下别名隐藏,修改后字段和类型的显示跟结果表保持一致。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6718260c11ebe9038f34c6459c854924..jpg

(体验优化示意图)


10.实时开发任务热更新优化

  体验优化说明  

背景:此前版本对热更新未做状态限制,存在正在热更新的任务重复提交热更新的操作。


体验优化说明:

• 通过后端对任务热更新状态的判断,正在热更新的任务无法重复的提交热更新操作,将给出提示:当前任务正在进行热更新操作,请等待热更新结束后再执行操作


• 调度增加任务运行状态,可以通过状态进行判断

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f7605b64ce259b532275da3978ad117a..jpg

(体验优化示意图)


11.自定义模版创建任务时取消引擎版本限制

  体验优化说明  

背景:此前的自定义模版,只支持 Flink1.16 版本使用,限制了模版的使用版本,6.0的用户存在低版本未升级到1.16的情况,就无法使用此功能。


体验优化说明:自定义模版创建任务取消引擎版本的限制,同步支持了低版本也能使用此功能。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a15024405135d854eb596f7c8ea84222..jpg

(体验优化示意图)


12.任务开发页面优化

  体验优化说明  

背景:任务开发时,点击保存,页面会自动跳回至顶部,打乱开发节奏,无法定位上一次编辑的位置。


体验优化说明:数据开发在使用任务开发页面编辑 SQL 脚本不需要从顶部开始往下滑动,可以直接停留在保存的位置。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5f176f9efd984a293589b81efe8e7834..jpg

(体验优化示意图)





《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群