作为一家以“客户第一”为价值观的公司,袋鼠云一直以来关注客户体验,专注提升产品品质,不断收集客户反馈,持续增加新功能并不断优化旧功能,为用户输出最佳产品使用体验。2022年上半年,我们新增了许多重要功能,并进行了若干细节更新,然后整理了这份产品优化报告,在此与您分享,欢迎您提出宝贵建议。
那么究竟具体迭代优化了哪些内容呢?下面就给大家一一进行介绍。
数栈DTinsight
数据安全集成Ranger、LDAP/
用户痛点:在老版本的数栈中,数据安全的管理方式是比较弱的,虽然我们也做了表权限的管理、在资产中也有数据分级分类的功能,但存在以下几个硬伤:
· 权限与底层不打通
· 授权方式粗放、简单
· 权限不能全平台生效
新增功能说明:综合上述用户痛点,需要集成标准权限控制技术,实现一体化、全域的数据权限控制。
Hadoop体系内,我们通过Ranger来实现数据权限的集中控制,包括了绝大多数的Hadoop组件。并且Ranger本身可支持更丰富的权限控制,比如HBase等。
在数栈的标准的数据安全方案中:
· 用户可通过LDAP认证,访问各类jdbc类应用,比如Hive、Spark、Trino等。
· 若用户需要直连HDFS访问数据(比如通过Python或shell),或访问Kafka,则只能通过Kerberos证书来访问。
(新增功能示意图)
项目空间/
以下内容为各子产品新增功能及体验优化项
离线开发平台
1.自定义调度日历
新增功能说明
2.自定义全局参数
新增功能说明
3.资源组
新增功能说明
4.用户组角色授权
新增功能说明
5.对接Bitbucket进行代码备份和同步
新增功能说明
6.任务上下游参数传递
新增功能说明
7.项目级Kerberos认证
新增功能说明
8.搜索优化
新增功能说明
9.调度自动同步信息
体验优化说明
支持mysql、oracle、sqlserver、hive数据源连接信息变更后(数据源链接、数据源用户、认证信息等),调度将会自动同步,任务运行时会获取新的数据源信息。
10.任务提交时的备注格式可在配置文件中设置
体验优化说明
11.开发
体验优化说明
· 数据开发页面表查询菜单支持查看当前项目默认schema所在集群下的所有Hive、TiDB、ADB表
· 文件目录的字符数限制由20放宽为64
12.数据同步
体验优化说明
· hive、mysql、DMDB、DB2数据源的数据同步时可以选择schema
· 写redis支持hash数据结构
· 字段映射支持对已映射的字段进行排序整理
13.其他优化项
体验优化说明
· hive3cdp支持元数据同步
· 数据文件治理规则中的文件数最小值限制由100调整为10
· 杀任务、冻结任务,任务管理、周期实例、补数据实例的批量操作增加二次确认
· 数据源连接信息变更后自动同步至调度,任务运行时会获取新的数据源信息,现已支持mysql、oracle、sqlserver、hive数据源,后续会支持剩余数据源
· 任务提交时的备注格式可在配置文件中设置:任务提交时的内容是必填的,可以增加几个文本框字段
数据资产平台
1.数据中台全域资产汇聚
新增功能说明
2.资产打标
新增功能说明
3.血缘解析能力增强
新增功能说明
4.其他新增功能
新增功能说明
· 数据模型支持标准化检测、发布审核:用户新增、编辑数据模型时,将会自动提交管理员审批,审批通过后实际执行
· 数据同步任务血缘解析:支持对基于FlinkX的离线数据同步任务的血缘(不支持实时采集任务的血缘解析)
· 增加Impala元数据采集
· 支持按照用户组授予角色
· 关键操作日志安全审计功能
· 支持对SparkThift、Hive2.x、Inceptor、Doris、MySQL、Oracle、SQLServer、TiDB表行数的统计。Hive表的表行数是通过执行Hive analyze实现,需注意此功能对性能的影响
实时开发平台
1.支持PyFlink
新增功能说明
为了拓展流任务的灵活性,实时开发平台集成了PyFlink,新增了PyFlink的任务类型。
PyFlink是什么,简单点说就是Flink+Python,或者说是Flink on Python。两者的结合意味着您可以在Python中使用Flink的所有功能,并且将Python广泛的生态系统的计算功能运用在Flink框架上,以提高解决数据问题的能力。
2.统一建表
新增功能说明
实时现有的FlinkSQL开发流程是:创建任务-创建Flink表-编辑SQL逻辑-任务提交。比如同一个Kafka数据源,在不同的任务中引用,需要多次创建Flink表,并且不可复用。
「统一建表」,是为了将建表信息维护进持久储存,减少重复的建表动作、并进行统一的管理而设计的。也就是说,一个数据源只需要一次建表动作,在任务中可以重复引用,便于元数据管理和后续表的权限管理等。
统一建表,引用了Catalog 管理,是提供了一种新的表创建、管理方式,原来的表逻辑依然保留,并且可以在一个任务中同时使用。同时存在这2种方式。
3.Batch模式
新增功能说明
4.Flink1.12
新增功能说明
· Flink CDC支持数据还原
· FlinkSQL维表、结果表支持Impala
· 支持自定义Kafka Format格式,当前支持csv、json、avro三种格式,可自定义扩展新的格式,例如protobuf
5.其他新增功能
新增功能说明
· 消息管理平台和实时的合并:实时将与Kafka消息管理平台共同输出,未来也可以输出Kafka,需注意权限情况,只有租户管理员/租户所有者才具备Kafka集群管理的权限,其他角色只有查看权限
· 支持MessageQueue作为数据源「sow」
· 维表结果表支持Doris
· 开发界面,增加SQL结构展示
· 支持每个任务指定资源队列提交
6.产品优化项
体验优化说明
· 支持将oracle维表作为选择视图
· flinksql中使用sasl/scream认证放是的kafka作为源表报错
· 开启出错重试时,可以选择任务重跑还是续跑
· 语法检查报错信息中含明文密码
· Flink1.12实时采集的参数模版中增加参数
· 任务调试:调试数据管理/引用,可以复用Flink用来调试的数据;
· 开启出错重试时,可以选择出错重试时,是重跑还是续跑;
· 资源管理:资源详情上显示资源绝对路径
数据服务平台
1.API传输,支持国密sm2加密
新增功能说明
2.调用不同API使用同一认证信息
新增功能说明
3.API版本管理
新增功能说明
4.其他新增功能
新增功能说明
数雁EasyDigit
客户数据洞察平台
(原智能标签平台)
1.预置demo
新增功能说明
预置新零售行业、基金行业demo,demo里有示例数据,方便用户更好地结合实际业务场景体验产品功能。
(新增功能示意图)
2.群组交并差
新增功能说明
3.离线查询
新增功能说明
4.标签评估
新增功能说明
5.标签市场
新增功能说明
6.箱形图
新增功能说明
7.SQL标签
新增功能说明
8.默认实体
新增功能说明
支持设置默认实体,平台内选择实体的地方将选中默认实体,减少用户的操作成本。
(新增功能示意图)
9.实体变化趋势
新增功能说明
10.审计日志
新增功能说明
11.标签类目分布图
体验优化说明
通过下钻交互的矩形树图展示不同类目的标签分布情况。
(优化后示意图)
12.其他优化项
体验优化说明
· 支持源表修改数据类型:主表、辅表修改字段类型后,系统内部将自动同步
· 上传本地群组:功能界面及技术优化
· 主键重复问题优化:当源表的主键数据重复时,将处理系统内的表,保证标签大宽表、标签临时表的主键唯一
· Hbase表压缩:支持针对Hbase列簇指定不同的压缩格式,解决从Hive同步到Hbase导致的数据膨胀问题
· 主键脱敏:支持对主键标签脱敏
指标管理分析平台
1.预置demo
新增功能说明
2.指标血缘
新增功能说明
支持查看指标上下游血缘关系,在线进行指标计算结果的溯源。
(新增功能示意图)
3.产品首页
新增功能说明
4.指标共享
新增功能说明
5.数据权限
新增功能说明
6.交互升级
新增功能说明
7.原子指标结果查询
新增功能说明
· 针对原子指标的来源表,进行有条件的结果数据查询
· 支持在指标市场中,选择原子指标进行结果查询
(新增功能示意图)
8.审计日志
新增功能说明
9.产品优化项
体验优化说明
· 数字开头的schema、table表名适配,代码中会自动加双引号
· 数据模型前端重构
· 运维中心单独开发
· 复合指标操作界面自适应
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack