近些年,数据安全事件频发。
作为企业的核心资产,数据的外泄、破坏都会导致不可挽回的经济损失和核心竞争力缺失。规范的制度建设、权限管理和变更流程是保证数据安全的重要落地措施。
袋鼠云 DBA 团队承接多个客户的容灾架构设计需求,制定可靠、有效的容灾架构方案并推动落地。备份重于一切。我们会优先考虑数据库备份集的容灾设计:两地三中心 VS 混合云、权限分配 & 监控告警 & 恢复演练。
基于混合云的备份容灾方案,已成功向多个客户输出。今天来谈一下阿里云 —IDC 混合云场景下的备份容灾设计:
1. 阿里云 RDS 等数据库产品,备份集、binlog 保留在 OSS 对象存储,下载后可见;同时提供备份 / 日志 API 接口,用于编程开发;
2. 云环境和 IDC 容灾机房走了专线,带宽根据备份、日志量,传输时间窗口来规划;
3. IDC 容灾机房重要是存储的规划:RAID & 文件保留期限 & 容量 & 权限;
4. 备份集、日志文件的抽取、验证程序;5. 运维监控平台,收集、分析 IDC 容灾机房程序日志,发现、告警,运维及时响应。
具体实现:
1. 元数据。阿里云 RDS 提供了两个 API:备份文件信息 DescribeBackups、日志文件信息 DescribeBinlogFiles,传入参数 instance_id 即可获取备份集、日志文件的基础信息:下载路径、大小、文件名、checksum 值等。
袋鼠云智能运维中台可以准实时同步 RDS 元数据信息,确保备份集、日志文件的抽取时效。
2. 文件抽取。依赖元数据信息,分为备份集和日志文件两个抽取程序,每个程序均配置有文件大小、checksum 值双重验证。
对拉取进程超时、文件不完整等问题,会自动重新拉取。
控制抽取进程并发数量,避免专线拥挤。
3. 运维监控平台接入,分析同步任务运行日志,配置抽取失败、传输超时等告警;同时接入 IDC 存储空间使用量、使用率变化趋势告警,对异常问题主动发现、及时处理。
4. 恢复演练。制定演练计划,模拟以时间点恢复、数据误操作等运维事件,收集操作过程,整理成册。
5. IDC 存储管理由机房运维部门负责,云平台运维部门操作存储需严格按照审批流程进行申请。
从架构设计、权限管理到程序开发、告警响应、异常处理、恢复演练,多环节无死角确保备份集安全。
只要备份安全,数据一定能恢复。
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack