博客个人数据空间及其结构解析

个人数据空间及其结构解析

数栈君发表于 2023-06-26 16:04 1729 0

“个人数据空间”（peronsal dataspace）是GDPR之后逐渐发展起来的概念。主要目的是确定个人数据的范围和边界。由于尚未形成关于个人数据保护的国际公约，因此，各个国家的对个人数据空间的范围和边界的界定存在一定的差异。

在中国，按照《个人信息保护法》和《网络数据安全法》，拟定的数据分类分级的规范[xii]，将个人数据分类为16个一级类别，22个二级类别。安全标准分级从低到高为1至5级。其中，明确规定了个人敏感信息的安全标准分级不低于4级。

于此同时，《个人信息安全规范 - GB/T 35273》对个人数据从收集、保存、共享、使用、转让、委托处理等各个环节提出了相应要求。

依据上述法律法规以及相关规范，构建中国的个人数据空间的一个「结构模型」如下：这个结构模型由一个身份ID（Identity）、一个包含五个层级的数据核（PDC：Personal DataCore）和一个数据表示层（PDP: Personal DataPresentations）构成。示意图如下：

身份ID标识这个数据空间的主体身份。

数据核中包括三大类个人数据：{个人非敏感信息，个人敏感信息，个人秘密}，以及按照分级标准设置的4个分级。其中个人非敏感信息、个人敏感信息按照有关法律和规范定义；个人秘密则指不可访问、不能利用以及其他限制任何外部开发利用的个人信息的统称。

数据核包括了个人数据的原始数据，以及描述这些原始数据的metadata。一般的，这些metadata描述了对应的原始数据在哪“出生”，由谁出生的等信息。这些metadata的核心目标是确保数据核中的原始数据是可追溯、可验证的可信数据（TrustedData）。

考虑个性化需求、隐私保护、以及权利设置等差异化因素，当外部应用需要访问数据核的数据时，个人可以针对不同的应用，设置不同的策略。

例如，Alice对其消费数据设置不同的策略：如对提供消费信贷的银行，她可以设置完全使用；对电商或广告商，她则设置为特定期限、特种商品的消费数据可以使用。

这些策略可以看作是一个映射函数（表示类），将数据核的数据映射为某种形态后给外部使用。由于存在很多的策略，所有这些策略构成的集合，就用表示层来描述。外部不能直接访问数据核的数据，而都需要通过表示层来获得数据核中数据的某种形式的一种表示。

由此，对任意一个人（A）的数据空间

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/71d995e8ece4e5356dfbda889b999fbc..jpg

，

的数据核包括三个大类，4个等级的数据

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e30206bb23d5e0130b35a8e0f7abccfc..jpg

，其中p表示类别，q表示等级；以及在表示层中数量不等的表示类

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/a74293bc1f9f75f94f3d58c3e2487d19..jpg

。外部应用使用的个人数据资产

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e88d0b981e12259edcb6ea6438d95961..jpg

是数据核元素的一种表示，即

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/5024ecd4c9e333ddc1ceacb38dd46a15..jpg

。

例如，对于非敏感信息，则可以认为

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/948aabf7fddcc0a779379ae269246e79..jpg

；而对于需要隐私计算后，才能使用的数据，则

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cc7e8ed7a9ded4a3fd89f23bab5abc1c..jpg

，这里

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/64b73aa9e87737e9569e328474d61679..jpg

为某种隐私算法。

一个示例如下：

示意图表示App1使用的是任何类别，等级为1的数据；App2则联合使用任何类别，但等级分别为1和4级的数据；Appi使用任何类别，等级为3的数据，其中，由于安全等级设置，App2和Appi都无法直接使用数据，而是采用了隐私计算等算法，间接的使用数据。

例如，Alice的交易对手Bob，想知道Alice的账户是否有足够的余额支付他们之间的交易。但Alice处于隐私保护目的，并不想给Bob看她的银行存款余额。那么Alice就可以选择一个隐私计算的算法来表示她的银行存款余额。这个表示算法根据Bob设定的金额，表示出Alice的余额是否大于或小于这个金额。

由于个人数据蕴含丰富的信息，高级的AI算法能够通过关联不同类别的数据，推理或预测个人的一些深度隐私或秘密。

例如，通过对Alice的银行余额数据和交易的长时间序列，关联其它的一些数据，就不仅能推测Alice目前有“多少钱”，还可以推测Alice“怎么挣钱”，以及未来是否还能“挣到钱”的隐私和秘密。

可能大多数人很难想象，当你戴了一个眼球追踪装置的时候，追踪装置采集到眼球的数据都是一些诸如眼球运动参数、机能的一些“常规”、完全可以开放的数据。但采用高级的算法，通过分析这些眼球运动的数据，也能推断出非常多的关于个人的敏感信息[xiii]。

上图实例中，左边的数据是眼球跟踪装置直接采集的眼球运动的常规数据。右边的年龄、性别、健康、生物信息等个人敏感信息，都是通过AI算法预测、推断出来的。如果跟踪的时间足够长，这些推断的准确性就非常高。

因此，处于保护隐私和安全的考虑，有必要在表示层，对这类算法进行感知、限制，采取的方式就是，限制对某些数据的联合建模或关联分析，以阻止特定算法洞察个人隐私和秘密的行为。

例如，某个App想使用

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9cb183dda4a789db5ec2203859336dc1..jpg

数据，经过审核

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/510798ea70f7e1a025d883eb73265d7a..jpg

算法安全，则可以表示。但如果App想联合使用

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9193c475e921fa211a2e683b1e20c348..jpg

数据，则表示层识别到这种情况，设定了特别的阻止表示类

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/47806e7f1b9570e7853b3787f95db94d..jpg

，限制外部任何应用联合使用这两个数据。

更为复杂的情形是，App应用将个人数据空间中的数据关联到外部数据，从而进行潜在的挖掘和洞察，在此情况下，表示层会事前要求App提出使用数据的目的以及说明。并可以采取必要的措施，进行事后审核和检验。

表示层具体实现的方案有很多种。一种可行的方案是，表示层用区块链来构建，如此，策略、权限设置等就都可以用智能合约来表达。使用一个策略，就是调用一个合约，这样可以大大提高互操作性和标准化。与此同时，也能很好的记录、追踪和存证。

根据上述模型，一个App应用访问Alice个人数据空间的过程就可以简单的描述如下：

【初始化过程[xiv]】我们假设Alice已经从不同的数据出生地，运用数据复制权利/可携带权，归集自己的个人数据、并存储在分布式的PDS（个人数据存储）上。除此之外，Alice也完成了对数据空间中的原始数据的访问/使用权限、策略进行设置，并用智能合约的方式表达出来。如，哪些数据可以使用，哪些绝对不行；哪些可以采用隐私计算使用，哪些可以直接用原始数据使用等等。策略设置主要是考虑隐私保护以及限制不良洞察算法滥用数据关联等。

1. 当一个App应用提交Alice要使用她的类别为3、4、5类，安全等级为2、4的所有数据，即

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8c87944740ff54cd80a6b672ce84aef9..jpg

的请求。

2. Alice的个人数据空间的代理人（agent）收到这个请求后，首先根据权限、策略设置表，进行审计和评估。

3. 审计和评估后，代理人得出结果：

3.1 当3、5两类、等级为4的数据联合使用，存在隐私风险；因此，拒绝APP对

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4aeb56fd1eb02666a788282327d8af6e..jpg

使用；

3.2 第4类、等级为4的数据，必须采用隐私计算保护；同时如果算法不合格，则拒绝使用。

4. APP提交了处理

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/65deab0e3285a888677489858e29e9c4..jpg

数据的算法g和f，代理人对算法进行审计或验证后，通过了。

5. 最终，APP得到的数据和可以使用的算法是

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/87702a1b7f452428551906a0e5ea461c..jpg

。

Alice是电商平台JD、TB的用户。JD、TB和Alice根据《个人信息保护法》等法律签署了新的服务协议。

Alice向JD、TB发出个人数据查询请求。JD、TB响应请求，告知Alice它们各自采集、存储和使用了她的哪些个人数据，以及如何使用这些数据的说明。

Alice准备向一家银行Bank G申请消费贷款。Bank G告知Alice，只要她能提高在JD,TB的过去3年的消费数据，就可以得到受理。

Alice向JD、TB发出个人消费数据的复制请求（数据携带权）。JD、TB很快，就将Alice要求的过去三年的个人消费数据发送给Alice。

Alice是购买和租用了一套自治的个人数据管理系统（PDMS）。这个系统为Alice提高管理自己数据空间的工具，并提供一些基础的服务（如BaaS区块链、分布式存储、委托代理等）。

Alice的PDMS接收到从JD、TB上传来的消费数据，会将其归类和加密后存储。PDMS的控制界面会提供很多选项，让Alice决定访问这些数据的权限，以及一些特定的策略。例如，Alice想把采购一些个人私人用品的消费数据（如产品名称、消费金额等）做隐私保护。

PDMS将上述数据完成设置后。Alice就授权BankG来使用。

Bank G无法直接访问Alice的数据核，需要通过表示层的区块链合约接口ABI来访问数据。而这些合约确保按照Alice确定的权限和策略对外提供数据。

至此，BankG就完成了请求获取Alice数据的过程。

BankG获取数据，如何处理数据是基于其与Alice基于消费信贷这一场景的需求。如果超出这个范畴，那里Alice就可以拒绝。

事实上，Alice很难判断一个算法到底是不是遵守“场景一致”原则的，因此，往往需要第三方帮助其进行鉴别。而Bank G可以采取公示或审计的方法，提高其处理个人数据的透明度。

“场景一致”原则[xv]，是个人数据开发利用新范式中引入一个原则。这个原则有助于判断某个应用算法是否“越界”，是否“必要”，以及是否存在隐私窥探和非法洞察。

综上，可以看到，通过合理的构建个人数据空间及其结构，采取适当的技术堆栈，能够有效的为个人提高数据权利行权和维权的工具和服务。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

大数据开发数据仓库数据开发平台大数据开发数据开发

0条评论

上一篇：演化中的个人数据开发利用新范式

下一篇：必备数据开发基本功有哪些？

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

个人数据空间及其结构解析

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群