大数据时代的到来,颠覆了传统业态的运作模式,激发出新的生产潜能。数据成为重要的生产要素,是信息的载体,数据间的流动也潜藏着更高阶维度的价值信息。对于数据控制者和数据处理者而言,如何最大化数据流动的价值,是数据挖掘的初衷和意义。然而, 一系列信息泄露事件的曝光,使得数据安全越来越受到广泛的关注。
所谓的数据脱敏,是指在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。
具体效果上,主要是去标识化和匿名化。
企业内部常见的数据脱敏场景主要包括数据报告脱敏、应用系统脱敏、数据库脱敏等。
(1)静态(数据文件)脱敏
适用于批量进行脱敏数据。比如用于模型训练的测试数据,再比如数据的导出用于离线数据分析。
(2)动态(数据库)脱敏
动态数据脱敏主要指的是数据库脱敏。具体而言,指的是比如研发人员的开发调试、DBA日常数据管理、运维人员基础运维等。
(3)应用系统脱敏
应用系统脱敏主要指的是前端页面的敏感数据脱敏,以及数据类型接口API的透出数据脱敏。
(4)数据报告及数据产品脱敏
这类场景主要包括内部的数据监控类产品或者看板、对外服务的数据类产品、基于数据分析的报告,比如业务汇报、项目复盘
统计技术是一种对数据集进行去标识化的常用方法,主要包括数据抽样和数据聚合两种技术。
(2)密码技术
密码技术是去标识化或提升去标识化技术有效性的常⽤⽅法,采⽤不同类型的加密算法所能达到不同的脱敏效果。
(3)抑制技术
抑制技术即对不满⾜隐私保护的数据项删除或屏蔽,不进⾏发布。
(4)假名化技术
假名化技术是⼀种使⽤假名替换直接标识(或其它敏感标识符)的去标识化技术。假名化技术为每⼀个⼈信息主体创建唯⼀的标识符,以取代原来的直接标识或敏感标识符。
该技术⼴泛使⽤在数据使⽤⽅数量多且相互独⽴的情况,⽐如开放平台场景的openid,同样⼀个⽤户,不同开发者获取的openid不同。
(5)泛化技术
泛化技术是指⼀种降低数据集中所选属性粒度的去标识化技术,对数据进⾏更概括、抽象的描述。泛化技术实现简单,能保护记录级数据的真实性,常见于数据产品或数据报告中。
取整:涉及到为所选的属性选定⼀个取整基数,⽐如向上或向下取证,产出结果100、500、1k、10k
顶层与底层编码技术:使⽤表⽰顶层(或底层)的阈值替换⾼于(或低于)该阈值的值,产出结果为 “⾼于X”或 “低于X”
(6)随机化技术
随机化技术作为⼀种去标识化技术类别,指通过随机化修改属性的值,使得随机化处理后的值区别于原来的真实值。该过程降低了攻击者从同⼀数据记录中根据其它属性值推导出某⼀属性值的能⼒,但会影响结果数据的真实性,常见于⽣产测试数据。
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack