袋鼠云技术荟 | 一人造成几十亿损失，从“删库事件”看如何保障数据安全-袋鼠云丨数栈丨数据中台丨数据治理丨数据可视化丨数据运维

袋鼠云技术荟 | 一人造成几十亿损失，从“删库事件”看如何保障数据安全

作者：净能

袋鼠云运维中台负责人

15年云计算、大数据项目经验，主导多个迁云、搬站等政企行业大型项目。

袋鼠云技术荟 | 一人造成几十亿损失，从“删库事件”看如何保障数据安全

导读

最近，某公司“删库事件”轰动一时。由于员工恶意破坏线上生产环境及数据，导致公司系统服务不可用，给商家经营造成了严重影响。经过七天七夜的努力，被删除的数据已经全面找回，该公司也准备了1.5亿元赔付金以弥补客户的损失。

“删库事件”引发了大众对于数据安全问题的探讨，我们最近也收到了很多客户咨询，问怎样更好地保障企业的数据安全，避免类似的事件发生。

说到数据安全，它包括数据本身的安全和数据存储的安全。数据本身的安全包括链路加密、数据存储加密等，这里就不着重阐述了。数据存储的安全包括存储软硬件的安全、备份安全、异地灾备等。“删库事件”本身是数据存储的安全不到位导致的。我们重点来说下数据存储的安全。

怎样做到数据存储的安全呢？一般需要从制度规范（人）和技术这两个方面来保障。

数据存储安全的制度流程保障

根据数据库安全管理的相关要求，从职责、权限、流程上，主要建立如下几点：

数据库管理员规范要求：

1、数据库管理员与系统管理员、应用系统管理员、数据备份管理员不可兼职。数据库管理员必须创建专门的服务支撑帐号进行日常服务支撑。

2、数据库管理员必须定期复核(至少每2个月一次）用户权限的性质和范围。

3、数据库的用户权限和用户的岗位需求必须保持一致。对用户权限的管理本着最低范围、最低权限、本人专用、出现问题本人负完全责任的原则进行管理。

对备份管理员的规范要求有：

1、备份管理员与数据库管理员、系统管理员、应用系统管理员不可兼职。备份管理员必须创建专门的服务支撑帐号进行日常服务支撑。

2、备份管理员按照备份作业计划，每日巡检备份执行情况，包括数据库容灾备份、不完全备份、归档日志备份，填报检查记录，确保备份的完整性。

另外，对用户账户与安全口令也需要有明确规定：

1、口令长度不应小于8位。口令中至少应包括以下三种：数字、大写字母、小写字母以及特殊字符（特殊符号举例如下：!@#$%^&*()_+|~-=`{}[]:”;’<>?,./）。

2、口令必须定期修改，口令使用周期不能超过3个月，在涉密较多、人员复杂、保密条件较差的地方应尽可能缩短口令的使用时间。重要设备、系统的管理员帐号口令在每次修改之后必须备案。

这些规范流程的落地执行能够达到下列目标：

首先就明确了各运维岗位职责，各岗位权限最小化，最大化保障数据安全性，一旦发生数据安全事件，将损失降到最小。

其次单独的备份管理员存在，一旦生产库发生突发恶性事件，生产员工无法触碰备份环境，保障了备份数据的安全性。

同时在执行过程中有密码定期修改、执行计划等过程性措施，防止密码泄露和也保障了备份的完整性，一旦发生问题可以启动紧急事件流程，最小时间内恢复业务运行。

数据存储安全的技术保障

从技术上保障数据存储安全，我们可以从存储架构选择、备份方案、数据库高可用架构、监控保障几个方面进行，如下图所示：

袋鼠云技术荟 | 一人造成几十亿损失，从“删库事件”看如何保障数据安全

技术上的数据存储安全保障需要从下列几个方面重点来看：

在传统的数据库架构上，灾备策略并没有充分考虑物理或逻辑损坏的问题，在特殊情况下无法做到快速恢复数据或根本无法恢复数据；

受限于技术能力和成本，大部分企业是通过逻辑或物理全备的方式进行备份，这本身并没有多大的问题；

但是在需要恢复的时候，必须考虑：逻辑备份只能恢复到备份时间点的数据，不能进行一致性恢复；物理全备份随着数据量的增长，备份的时间会加长，相应的数据恢复速度会降低，故障恢复时间就难以预估。

灾备架构是在业务规划时不得不考虑的一个问题，但大部分企业会停留在一主一备、准实时数据同步的场景；在数据库逻辑故障的情况下，这个架构没有任何优势。

备份集的存储策略同样重要，保留多久的数据算合理？保存在哪？需要多少的存储资源？备份集是否有效？谁负责管理这些备份集？

针对如上问题，有没有一个好的数据库灾备解决方案呢？袋鼠云给出下面方案可供参考。

数据库灾备解决方案

袋鼠云技术荟 | 一人造成几十亿损失，从“删库事件”看如何保障数据安全

灾备架构：

数据同步主备架构，避免主机硬件故障带来的单点问题Oracle DG 、MySQL standby、MSSQL 订阅……

数据延迟备份架构，避免主库错误逻辑变更导致数据不一致问题

Oracle DG： alter database recover ……delay 7200 ……

MySQL ： CHANGE MASTER TO MASTER_DELAY = 3600

MongoDB： cfg.members[1].slaveDelay = 3600（严禁在线操作）

多地多中心、混合云灾备架构

备份策略：

物理备份：全备份、增量备份或差异备份，如5全备，1、3、4、6、7增量备份，2差异备份

Oracle RMAN、MySQL xtrabackup、Mongo oplog……

日志备份：Oracle archive log、MSSQL事务日志、MySQL binlog……

逻辑备份：重要的业务表逻辑备份

Oracle expdp、MySQL mydump、Mongo mongodump……

备份集存储

本地存储：本机分配备份盘，保留最新一份全备集合；上传所有备份集到本地存储设备

跨机房存储：本地备份后，通过专线上传到异地机房存储设备

云端存储：本地备份后，通过专线上传到阿里云对象存储OSS

备份存储多地存储，避免机房单点故障

设备分权限访问，避免人为故障，助力数据快速恢复

恢复演练

验证备份集可恢复、数据可用

收集恢复实施文档，故障恢复有文可依

全量+增量恢复演练

数据文件损坏恢复演练

数据库误操作恢复演练

主备环境failover恢复演练

……

灾备管控软件

配置数据库备份、存储策略

监控数据库运行、数据同步状态

监控备份是否正常执行

监控存储设备使用情况

短信、电话、钉钉、邮件告警

……

综上所述，在数据安全如此重要的今天。企业一定要在管理上、规范上、技术上做好规划，加强员工的安全意识，全面做好数据安全保障。做好数据管理人员的角色分权，并监控其数据访问行为，形成审计机制。周期性的进行仿真演练，保证企业员工的数据安全敏感性，这样才能从根本上实现数据安全！发挥数据的价值，从而利用数据促进企业的创新与数字化转型！