大数据技术内涵持续进行延伸,经过十三五的发展,已从面向海量数据的存储、处理、分析等基础技术,延展到面向海量数据的管理治理、流通交易等新兴关键技术。大数据管理治理类技术实现数据整合、集成,实现数据资产的管理,助力提升数据质量与可用性。大数据流通交易类技术实现安全合规下的数据共享及交易,助力提升数据流通性。
数据管理相关的概念和方法论近年来备受关注,在大数据浪潮下越来越多的政府、企业等组织开始关注如何管理好、使用好数据,从而使数据能够藉由应用和服务转化为额外价值。大数据管理技术包括元数据管理、数据集成、数据建模等,通过汇聚盘点数据和提升数据质量,增强数据的可用性和易用性,进一步释放数据资产的价值。
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
元数据管理方面比较有代表性的开源软件和数据管理平台主要有Apache Atlas,Data Hub。Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据管理核心能力。Apache Atlas与Hadoop关系紧密,深度集成了Hadoop大数据组件。Data Hub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具,2.0版本支持的数据源包括LDAP,Hive,Kafka,MySQL,DB2,Firebird,SQL Server,Oracle,Postgres,SQLite,ODBC等,实现的功能主要包括元数据、数据血缘、权限描述、生命周期等。
数据集成是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只需关心以何种方式访问何种数据。
数据集成方面比较有代表性的开源软件和数据管理平台主要有的DATAX,Kettle。DATAX是阿里开源的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能,实现了高效的标签识别以及数据去冗余。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
数据建模指对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后,在数据建模工具中建立数据库实体以及各实体之间关系的过程(实体一般是表)。
数据建模方面比较有代表性的开源软件和数据管理平台主要有Erwin、PowerDesigner。ERwin全程ERwin Data Modeler,是CA公司(Computer Associates) 的一款优秀建模工具,历经数年的开发和维护,享有很高的市场占有率。用户使用ERwin可以可视化的设计维护数据库、数据仓库,并对企业内部各种数据源模型进行统一规划管理。PowerDesigner是Sybase公司的CASE工具集,使用它可以方便地对管理信息系统进行分析设计,几乎包括了数据库模型设计的全过程。利用Power Designer可以制作数据流程图、概念数据模型、物理数据模型,还可以为数据仓库制作结构模型,也能对团队设计模型进行控制。
目前以上三类技术多集成于数据管理平台,作为开展数据管理的统一工具。但是数据管理平台仍存在自动化、智能化程度低的问题,实际使用中需要人工进行数据建模、数据标准应用、数据剖析等操作,带来居高不下的人力成本。更加自动化智能化的数据管理平台需求迫切,可助力数据管理工作高效进行。在基于机器学习的人工智能技术不断进步的情况下,将有关技术应用于数据管理平台的各项职能,以减少人力成本提高治理效率成为当下数据管理平台研发者关注的重点。
数据建模、数据标签、主数据发现、数据标准应用成为几个主要的数据管理+AI应用方向。数据建模方面,机器学习技术通过识别数据特征,推荐数据主题分类,进一步实现自动化建立概念数据模型,同时,对表间关系的识别将大大降低逆向数据建模的人力成本,便于对数据模型的持续更新。数据标准应用方面,基于业务含义、数据特征、数据关系等维度的相似度判别,在数据建模时匹配数据标准,不仅提升了数据标准的应用覆盖面,也减少了数据标准体系的维护成本。数据剖析方面,基于机器学习的人工智能技术可通过分析问题数据和学习数据质量知识库,提取数据质量评估维度和数据质量稽核规则,并识别关联数据标准,实现自动化的数据质量事前、事中、事后管理。华为、浪潮、数梦工场、数澜科技、Datablau等数据管理平台供应商也在各自的产品中不断更新自动化智能化的数据管理功能。
数据确权、数据定价和数据安全是数据流通交易领域的三大核心内容。其中数据确权需要明确数据资产的产权划分,数据定价在数据确权的基础上评估数据价值及收益分配,两者更侧重于法律和经济层面,目前依然处于持续探索阶段。从技术角度看,最主要的是要保障流通交易过程中的数据安全,保证共享数据不被第三方获取、隐私数据不被共享方获取、原始数据不被共享方获取。
数据流通过程中涉及到的网络数据传输安全需求与其他场景类似,目前网络身份认证技术发展比较成熟,可以确保网络用户身份的真实、合法和唯一性,防止非法人员进入系统,通过各种违法操作获取不正当利益、非法访问受控信息、恶意破坏系统数据的完整性等情况的发生。常用网络身份认证方式如下:
a)静态密码认证。静态密码方式是指以用户名及密码认证的方式,用户名/密码方式是最简单、最常用的身份认证方法。
b)动态口令认证。动态口令是应用最广的一种身份识别方式,基于动态口令认证的方式主要有动态短信密码和动态口令牌(卡)两种方式,口令一次一密。
c)USBKey认证。采用软硬件相结合、一次一密的强双因子认证模式。每一个USBKey都具有硬件PIN码保护,用户只有同时取得了USBKey和用户PIN码,才可以登录系统。
d)生物识别认证。通过可测量的身体或行为等生物特征信息进行身份认证,包括指纹识别、视网膜识别、声音识别等。
e)CA认证。证书颁发机构(CA,CertificateAuthority)负责发放和管理数字证书的权威机构,并作为电子商务交易中受信任的第三方,承担公钥体系中公钥的合法性检验的责任。CA机构的数字签名使得攻击者不能伪造和篡改证书。
2.数据脱敏、差分隐私:
保证隐私数据不被共享方获取
全球隐私保护合规监管日趋严格,一方面促进了数据权利主体和数据处理行为组织者的隐私保护意识的觉醒,但同时也加重了企业对数据流通与协作合法合规的担忧。目前在数据流通中保护隐私数据方面应用较多的技术主要有数据脱敏和差分隐私。
数据脱敏(Data Masking)是利用脱敏规则将一些敏感的信息(比如身份证号码、客户的账号、密码、地址、电话等信息)进行数据的变形,通过对这些敏感信息的变形,最终对这些敏感信息实现有效、可靠的保护。利用数据脱敏技术,可有针对性地保护与当前分析无关的信息,并保证分析挖掘的有效进行。通常的脱敏手段包括泛化、抑制和扰乱三种。泛化是指使用一般值来替代生产数据,使生产数据的局部特征得到保留,因此泛化后的数据是具有不可逆性的,具体方法包括数据截断、偏移取整、规整等。抑制是指对生产数据的部分信息进行隐藏,从而实现对生产数据值的转换,既隐藏技术,具体方法包括掩码等。扰乱是指对生产数据加入噪声来进行干扰,使生产数据发生扭曲及改变,生产数据被扰乱后,其分布特征仍保留不变,具体方法包括加密、重排等。
差分隐私(Differential Privacy,DP)是针对统计数据库的隐私泄露问题提出的一种新的隐私定义,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。传统的差分隐私方案大多为中心化的差分隐私方案,即数据通常都是由可信第三方添加噪声。但在实际应用中为了减少对可信第三方的需求,近年来也提出了一些去中心化的隐私保护方案,如本地差分隐私等。本地差分隐私(Local Differential Privacy,LDP)是在基于不可信第三方的前提下,客户端在数据被收集和聚合前,在本地对数据进行差分隐私保护。本地差分隐私已经被谷歌、苹果和微软等公司用于保护用户隐私。但是相较于传统中心化差分隐私,本地差分隐私方案对数据添加的噪声更大,在面向数据统计时数据的可用性更低。
3.多方安全计算、联邦学习、可信执行环境:
保证原始数据不被共享方获取
与土地、设备、资金等其他资产不同,数据作为一种新型资产要素具有很强的可复制性。为了保障自身的商业利益,在数据流通交易过程中,数据方往往不希望原始数据流出到他人手中而失去对数据的唯一控制权。针对多方数据协同计算的场景,保障数据不流出或少流出的技术主要包括多方安全计算、联邦学习、可信计算环境。
多方安全计算(Secure Multi-Party Computation,MPC)由姚期智在1982年提出,指参与者在不泄露各自隐私数据情况下,利用隐私数据参与保密计算,共同完成某项计算任务。当前,多方安全计算技术已成为现代密码学的重要分支。该技术可以使多个非互信主体在数据相互保密的前提下进行高效数据融合计算,最终实现数据的所有权和数据使用权相互分离,使数据“可用而不可见”,并控制数据的用途和用量。多方安全计算涉及的隐私保护技术和算法非常多,可分为秘密分享、混淆电路、不经意传输、同态加密等四大类及其他技术,其中每类又可细分出很多不同的算法。
联邦学习(Federated Learning)由谷歌于2016年提出,旨在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。根据联合建模的数据提供者提供的样本和特征的重叠情况,可将联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习三大类。横向联邦学习也称“特征对齐的联邦学习”,适用于数据提供方的数据特征重叠很多但样本重叠较少的场景。纵向联邦学习也称“样本对齐的联邦学习”,适用于数据提供方的样本重叠很多,但数据特征重叠较少的场景。迁移联邦学习适用于数据提供方的样本和特征重叠都较少的场景。与多方安全计算相似,联邦学习能够保障计算过程中多个数据方的隐私数据不泄露。区别在于,联邦学习仅适应于机器学习建模场景,此外,联邦学习可能使用多方安全计算的中数据保护算法,也可能使用了其他算法。
可信执行环境(Trusted Execution Environment,TEE)通过硬件技术来对数据进行隔离保护,将数据分类处理。支持TEE的CPU中,会有一个特定的区域,该区域的作用是给数据和代码的执行提供一个更安全的空间,并保证他们的机密性和完整性。因为TEE提供了一个与外部环境隔离的特征环境(有时也称为“安全飞地”)保存用户的敏感数据,TEE可以直接获取外部环境的信息,而外部环境获取TEE的信息。目前引入可信执行环境较为成熟的技术有ARM的TrustZone和Intel的SGX等。
免责声明:
本文转载自一个CAICT大数据与数字经济,版权归原作者所有,如若侵权请联系我们进行删除!