作者:文静
本次更新聚焦EMR 组件能力升级与管理平台能力增强两大方向,带来核心组件版本迭代、湖仓一体支持、集群扩缩容、安全一键开启等多项能力升级。
平台完成核心组件的版本兼容性验证与适配工作,确保新版本组件在平台上稳定运行,并提供平滑升级能力:
| 组件 | 版本 | 描述 |
|---|---|---|
| HDFS | 3.3.6 | DataNode 均衡器优化,跨 rack 数据分布更均匀;EC 纠删码能力增强,支持更低的存储成本 |
| YARN | 3.3.6 | Node 标签机制完善,多租户资源隔离更精细;公平调度器增强,抢占策略更合理 |
| HBase | 2.4.18 | MOB 存储能力增强,中等大小对象存储性能提升;读写链路优化,P99 延迟显著降低 |
| Kafka | 3.9.1 | KRaft 模式支持,Zookeeper 依赖降低;删除主题进入回收站,误删恢复能力增强 |
| Spark | 3.2.4 | AQE 自适应查询执行成熟落地,运行时自动优化执行计划; |
| Flink | 1.20 | 批流一体能力成熟,离线批处理与实时流处理统一作业; |
| Ranger | 2.6 | 安全漏洞修复;复制能力增强,多节点同步性能提升 |
湖仓一体已成为企业级大数据平台的标准架构,新增对三大主流湖仓框架的原生支持:
| 框架 | 类型 | 核心能力 |
|---|---|---|
| Iceberg | 湖仓 | ACID 事务、分区演进;Hive/Spark/Flink 多引擎统一读写 |
| Hudi | 湖仓 | CDF 变更数据捕获;增量消费;近实时写入 |
| Paimon | 湖仓 | 流式写入与增量消费;批处理性能优异;与 Flink 深度集成 |
典型应用场景:
新增三大 OLAP 引擎支持,满足多样化数据分析需求:
| 引擎 | 架构类型 | 核心能力 |
|---|---|---|
| StarRocks | MPP | 高并发多维分析;实时数仓;物化视图加速 |
| Doris | MPP | 高并发报表分析;Apache Doris 全面兼容 |
| Trino | 分布式 SQL | 跨数据源联邦查询;Hive / 对象存储统一分析 |
典型应用场景:
新增MinIO对象存储作为轻量级 S3 兼容对象存储,通过 EasyManager 平台对MinIO 组件进行部署和增减实例,简化 MinIO 部署和运维。
2.1.1 全组件扩缩容以及退服机制
支持 HDFS、YARN、HBase、Flink、Spark、Hive、ZK 等核心组件的全面白屏化扩缩容,实例增减通过图形界面完成,替代传统服务器登录与命令行操作模式,降低操作门槛与人为风险。
针对 HDFS、YARN、HBase 缩容场景,新增退服前检查与资源迁移流程,保障业务连续性:
2.2.1 集群一键启停
支持集群级别一键重启、停止、启动,内置组件依赖关系引擎,自动按序执行;支持滚动重启策略,运行作业自动调度至健康节点,保障业务持续可用。
2.2.2 配置变更记录与回滚
一键回滚,支持查看不同实例组下的不同配置修改记录,同时在任意配置节点回滚到上一次配置,便于配置修改追溯与维护。
2.3.1 Kerberos 一键开启
平台支持一键开启 Kerberos 认证,自动化完成全链路安全改造,包括服务识别、Keytab 生成、组件配置同步。
2.3.2 Ranger 集成初始化
支持 Ranger 集成后一键初始化,自动完成账号创建、服务插件注册、权限策略预配置,实现 Hive、HDFS、Kafka 等组件的统一权限管控,替代组件分散授权模式。
Yarn 资源队列绑定
在多租户大数据环境中,资源争抢与分配不均一直是核心挑战。本次新增资源队列绑定用户能力,实现队列仅对授权用户开放,通过设置用户或用户组的资源限制,防止个别用户占用过多集群资源,避免资源垄断,提高集群整体利用率。
资源队列计划模式
本次新增资源队列计划模式,支持多级队列容量规划与动态调整,适配业务峰谷场景。主要通过为每个队列配置最小保证资源和最大资源上限,然后配置不同时段的资源分配策略,例如工作日与周末、白天与夜间的差异化资源配比,适配业务峰谷特征。作业提交时自动校验目标队列剩余容量,队列满载时可拒绝作业或自动路由至备用队列,保障关键业务资源。
HDFS 快照管理
支持关键目录创建快照,对误删的数据可快速恢复,为数据安全提供即时、可靠、低成本的恢复机制。
2.6.1 Hive/HBase 表统计
自动扫描元数据,生成表数量、存储空间、访问频率等多维度统计报表,识别冷数据与异常资产,为存储成本优化与数据治理提供数据支撑。
平台对监控告警能力进行系统性升级,新增告警历史查看与问题复盘能力;优化告警规则配置,深度集成夜莺告警系统,实现告警统一聚合与分级管理。告警全生命周期管理能力,帮助运维团队从被动响应转向主动防御。
以 EMR 基础平台为核心运维保障,通过 Kafka、FlinkX 等流批一体能力实现全量数据的实时采集,依托 Trino、Doris 等引擎提供高性能数据分析;在底层存储上,融合了 Hudi、Paimon 等湖仓技术与 MinIO 对象存储,构建结构化与非结构化数据多模态 AI 存储,确保数据安全合规的前提下,从应用场景出发,全方位支撑起从原始异构数据源到高价值数据服务的业务全链路。