2023年已过半,袋鼠云开发团队和产品团队对数栈产品本身以及客户反馈的问题和痛点进行了持续性的更新和优化,包括对 EasyMR 监控告警功能的更新,以及对离线开发平台表生命周期逻辑的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。
以下为袋鼠云产品功能更新报告06期内容,更多探索,请继续阅读。
EasyMR
新增功能更新
1.CGroup 进程管控
新增功能说明
背景:因为环境或者代码 bug 导致单个进程影响整个平台使用,目前是手动重启服务解决问题,时效性低、成本相对较高。
新增功能说明:EasyMR 新增 CGroup 进程管控功能,对 linux 的一组进程包括 CPU、内存、磁盘 IO、网络等在内的资源使用进行限制、管理和隔离。
2.Hadoop Admin 用户启动
新增功能说明
背景:Hadoop3 版本使用 admin(普通)用户(sudo 权限)主机接入,无法使用普通用户启动服务。
新增功能说明:Hadoop3 版本支持利用 admin(普通)用户(sudo 权限)主机接入,支持使用普通用户启动服务。
3.业务数据库适配 TDSQL
新增功能说明
背景:某客户要求全数栈产品对接客户 TDSQL。
新增功能说明:EasyMR 安装脚本支持配置外部数据源。
cd em-release-4.6.1-beta
//执行install.sh进行部署
$./install.sh 部署机器的ip
执行./install.sh后选择功能菜单中的升级功能,输入数字1:
4.仪表盘升级更新
新增功能说明
背景:EasyMR 更新时,仪表盘会跟随 EasyMR 产品包一起部署。客户老版本的仪表盘可能存在变更情况,需要对客户老版本的仪表盘进行保留,同时更新上传新增仪表盘。
新增功能说明:EasyMR 升级时,仪表盘会跟随 EasyMR 产品包一起部署:
• EasyMR 升级时覆盖老版本仪表盘,保留客户自建仪表盘
• 备份历史仪表盘到本地环境
5.【监控告警】告警频率
新增功能说明
背景:当前告警信息一天只发送一次,很容易被忽略掉,对于比较严重的告警已经影响到客户的业务使用,需要多次提醒尽快处理。
新增功能说明:三级告警间隔设置,告警首次触发之后根据告警等级触发告警间隔,告警间隔为:
• 严重告警:5分钟
• 一般告警:6小时
•提示告警:24小时
6.自定义 logo
新增功能说明
7.健康检查异常服务重启
新增功能说明
背景:服务多次健康检查异常时,服务基本处于不可用状态,需要支持多次异常服务重启服务保证服务的可用性。
新增功能说明:支持通过产品包 Schema 配置健康检查的频次、是否重启。
8.EasyMR 服务高可用
新增功能说明
背景:EasyMR 存在单点故障、低性能和容量瓶颈等问题,为了保障服务的可靠性和稳定性,降低平台服务中断风险,需要平台进行高可用改造。
新增功能说明:对EasyMR 自身服务进行高可用改造,监控组件暂不支持高可用。
9.NTP 服务自动重启
新增功能说明
背景:NTP 作为一种用于同步计算机系统时间的网络协议,服务可能会出现故障或异常,导致系统时间不准确,进而影响到数据的一致性和分析结果的准确性。
新增功能说明:对 NTP 服务添加服务监控,服务down机后自动重启 NTP 服务,以提升服务的可用性和稳定性,保障系统时间的准确性,降低人工干预成本。
10.MySQL数据自动备份
新增功能说明
背景:在 EasyMR 中 MySQL 数据库扮演着关键的角色,用于存储和管理平台服务数据及监控告警信息。传统情况下,MySQL 数据的备份通常需要人工介入进行操作,人工备份容易出现疏忽导致备份遗漏或不完整,备份过程中对系统产生较大的负载,并且人工备份需要耗费大量时间和资源。
新增功能说明:通过脚本设置定时任务来实现 MySQL 数据的自动备份到指定服务器,实现数据异地备份。
11.Dashboard 支持分集群监控
新增功能说明
12.HDFS 数据均衡
新增功能说明
背景:随着数据量的增长和频繁的数据写入、删除操作,HDFS 上的数据可能会出现分布不均的情况,即某些节点上的数据负载较大,而其他节点上的数据负载较轻,当 HDFS 上的数据分布不均时,会导致部分节点资源过度利用,造成性能瓶颈,降低数据读写速度和查询效率。同时,还会导致资源浪费,一些节点的存储容量得不到充分利用,影响整个大数据管理平台的性能和可用性。
新增功能说明:HDFS-Datanode 服务,操作中新增「数据均衡」功能:
• Bandwidth:数据均衡带宽,默认值 5(MB/s)
• Balancer Threshold:数据均衡平衡度阈值,通过设置合适的 HDFS Balancer Threshold,可以避免过于频繁触发数据均衡操作,从而降低对集群性能和网络带宽的影响,同时,还能够确保集群中的数据分布保持在一个相对平衡的状态,提高整体性能和资源利用率
(新增功能示意图)
功能优化
1.Ldap 配置页提示
体验优化说明
2.服务配置注释
体验优化说明
3.分级告警
体验优化说明
背景:EasyMR 支持分级告警,Grafana 现版本5.1.3 存在诸多漏洞问题,需要进行版本升级。
体验优化说明:Grafana 现版本5.1.3 升级到新版本 Grafana 8.5.15,支持三级告警「严重告警、次要告警、提示告警」:
• 严重告警:告警规则对应资源发生紧急故障,影响业务视为紧急告警
• 次要告警:告警规则对应资源存在相对不太严重点问题,此问题不会阻碍资源的正常使用
• 提示告警:告警规则对应资源存在潜在的错误可能影响到业务
4.配置参数加密
体验优化说明
背景:配置参数中例如 password、user 信息需要进行加密展示,但经常出现参数为 xxx_pass 也需要进行加密,目前由后端进行参数关键词匹配再对值进行加密,特殊需求适配性不好。
体验优化说明:产品打包时,在 Schema 中标记参数是否为敏感参数,由后端进行参数值加密显示。
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack