博客 【数据安全】数据脱敏解决方案

【数据安全】数据脱敏解决方案

   数栈君   发表于 2023-12-08 11:54  128  0

前言

大数据时代的到来,颠覆了传统业态的运作模式,激发出新的生产潜能。数据成为重要的生产要素,是信息的载体,数据间的流动也潜藏着更高阶维度的价值信息。对于数据控制者和数据处理者而言,如何最大化数据流动的价值,是数据挖掘的初衷和意义。然而, 一系列信息泄露事件的曝光,使得数据安全越来越受到广泛的关注。

一、数据脱敏的基础概念

所谓的数据脱敏,是指在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。

具体效果上,主要是去标识化和匿名化。

  • 去标识化:是指通过对个人信息的技术处理,使得在不借助额外信息的情况下,无法识别个人信息主体
  • 匿名化:是指通过对个人信息的技术处理,使得个人信息主体无法被识别或关联,且处理后的信息不能被还原的过程

二、常见的脱敏场景

企业内部常见的数据脱敏场景主要包括数据报告脱敏、应用系统脱敏、数据库脱敏等。

(1)静态(数据文件)脱敏

适用于批量进行脱敏数据。比如用于模型训练的测试数据,再比如数据的导出用于离线数据分析。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a20bd19775035be5fb63624863e4d6df..png

(2)动态(数据库)脱敏
动态数据脱敏主要指的是数据库脱敏。具体而言,指的是比如研发人员的开发调试、DBA日常数据管理、运维人员基础运维等。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c1df06e03f164315429a01f45adbdb43..png

(3)应用系统脱敏
应用系统脱敏主要指的是前端页面的敏感数据脱敏,以及数据类型接口API的透出数据脱敏。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/1a3016abda84822085e81fb3d7cd7208..png

(4)数据报告及数据产品脱敏
这类场景主要包括内部的数据监控类产品或者看板、对外服务的数据类产品、基于数据分析的报告,比如业务汇报、项目复盘

三、常用的脱敏技术方法

常见的数据脱敏技术主要包括以下几类。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/112c997555a218336fc21d6e9130face..png

(1)统计技术

统计技术是一种对数据集进行去标识化的常用方法,主要包括数据抽样和数据聚合两种技术。

  • 数据抽样:是通过选取数据集中有代表性的⼦集来对原始数据集进⾏分析和评估的,它是提升去标识化技术有效性的重要⽅法。
  • 数据聚合:作为⼀系列统计技术(如求和、计数、平均、最⼤值与最⼩值)的集合,应⽤于微数据中的属性时,产⽣的结果能够代表原始数据集中的所有记录。

(2)密码技术

密码技术是去标识化或提升去标识化技术有效性的常⽤⽅法,采⽤不同类型的加密算法所能达到不同的脱敏效果。

  • 确定性加密:⼀种⾮随机对称加密,常见对id类数据进⾏处理,可在必要时对密⽂进⾏解密还原为原id,但需要对密钥进⾏妥善保护。
  • 不可逆加密:通常散列(hash)函数对数据进⾏处理,常见于对id类数据进⾏处理,不可以直接解密,需保存映射关系,同时因为hash函数特性,会存在数据碰撞的问题,⽤法简单,不⽤担⼼密钥保护。
  • 同态加密:⽤密⽂同态算法,其特点是密⽂运算的结果解密之后和明⽂运算相同,因此常见于对数值类字段进⾏处理,但性能原因,⽬前未⼤范围使⽤。

(3)抑制技术

抑制技术即对不满⾜隐私保护的数据项删除或屏蔽,不进⾏发布。

  • 屏蔽:是指对属性值进行屏蔽,最常见的脱敏方式,如对手机号、身份证进行打*号处理,或对于地址采取截断的方式;
  • 局部抑制:是指删除特定的属性值(列)的处理方式,删除非必要的数据字段;
  • 记录抑制:是指删除特定的记录(行)的处理方式,删除非必要的数据记录。

(4)假名化技术

假名化技术是⼀种使⽤假名替换直接标识(或其它敏感标识符)的去标识化技术。假名化技术为每⼀个⼈信息主体创建唯⼀的标识符,以取代原来的直接标识或敏感标识符。

  • 可以 独⽴⽣成随机值对原始ID进⾏对应,并保存映射关系表,同时对映射关系表的访问进⾏严格控制;
  • 同样可以采⽤ 加密的⽅式⽣产假名,但需为妥善保存解密密钥;

该技术⼴泛使⽤在数据使⽤⽅数量多且相互独⽴的情况,⽐如开放平台场景的openid,同样⼀个⽤户,不同开发者获取的openid不同。

(5)泛化技术

泛化技术是指⼀种降低数据集中所选属性粒度的去标识化技术,对数据进⾏更概括、抽象的描述。泛化技术实现简单,能保护记录级数据的真实性,常见于数据产品或数据报告中。

取整:涉及到为所选的属性选定⼀个取整基数,⽐如向上或向下取证,产出结果100、500、1k、10k

顶层与底层编码技术:使⽤表⽰顶层(或底层)的阈值替换⾼于(或低于)该阈值的值,产出结果为 “⾼于X”或 “低于X”

(6)随机化技术

随机化技术作为⼀种去标识化技术类别,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值。该过程降低了攻击者从同⼀数据记录中根据其它属性值推导出某⼀属性值的能⼒,但会影响结果数据的真实性,常见于⽣产测试数据。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群