博客 数据库技术七大发展趋势

数据库技术七大发展趋势

   数栈君   发表于 2022-01-17 19:36  516  0

大数据时代,数据量不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式愈发丰富,这些变化均对数据库的各类能力不断提出挑战,推动数据库技术不断向着模型拓展、架构解耦的方向演进,与云计算、人工智能、区块链、隐私计算、新型硬件等技术呈现取长补短、不断融合的发展态势,总结起来体现为三个方向:


1)多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用AI实现管理自治,提升易用性、降低使用成本(下文趋势一、二、三)

2)充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能(下文趋势四、五)

3)利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全(下文趋势六、七)

这些趋势与近期CCF数据库专委会发布的《“十四五”数据库发展趋势与挑战》报告所探讨的数据库新技术发展洞察的部分观点不谋而和。

趋势一:多模数据库实现一库多用

后关系型数据库阶段,数据结构越来越灵活多样,如表格类型的关系数据、半结构化的用户画像数据以及非结构化的图片和视频数据等。多模态数据建模将由目前以关系为中心逐步转为以对象为中心,更多关注非结构化数据的语义建模,强调数据与操作的可封装性、多重分类和动态分类,尤其是多模态数据之间复杂的语义关联,未来不是模式限定数据变化,而是数据驱动模式演化[1]。

面对多模态数据,应用程序对不同数据提出了不同存储要求,数据的多样性成为数据库平台面临的一大挑战,数据库因此需要适应多类型数据管理的需求。

多模数据库是指能够支持处理多种数据模式混合的数据库(例如关系、KV、文档、图、时序等)[2]。多模数据库支持灵活的数据存储类型,将各种类型的数据进行集中存储、查询和处理,可以同时满足应用程序对于结构化、半结构化和非结构化数据的统一管理需求。

目前行业以微软Azure Cosmos DB、ArangoDB、巨杉SequoiaDB和阿里云Lindorm等多模数据库为典型代表。当前多模数据库往往存在两个缺陷:一是缺乏统一的访问接口,不能够利用统一查询语言进行查询,比如基于Azure云的CosmosDB,包含了关系型的SQL Server,文档型的MongoDB,列簇式的Cassandra等各种模型存储,但它们都只能用各自对应的API进行访问;二是支持统一查询接口的往往查询性能不理想,比如基于文档型的ArangoDB,虽然能够利用统一查询语言AQL同时查询文档和遍历图数据,但性能往往不理想,因为利用文档的形式实现图模型需要通过多文档进行连接,当图遍历的深度加大,查询将非常耗时。

未来多模数据库应该是一种原生支持各种数据模型,有着统一访问接口,能自动化管理各模型的数据转化,模式进化且避免数据冗余的新型数据库系统。

趋势二:统一框架支撑分析与事务混合处理

业务系统的数据处理分为联机事务处理(OLTP)与联机分析处理(OLAP)两类。企业通常维护不同数据库以便支持两类不同的任务,管理和维护成本高。因此,能够统一支持OLTP和OLAP的数据库成为众多企业的需求。产业界当前正基于创新的计算存储框架研发HTAP数据库,HTAP (Hybrid Transactional/Analytical Processing)是指能够同时支持在线事务处理和复杂数据分析的关系型数据库。

广义的HTAP数据库是指能够在关系数据模型上进行OLTP时具有强一致性保证,并且融合了分布式能力从而同时具有高扩展性[3]。狭义的HTAP数据库是指采用行业混存或行列转化同时支持事务处理和联机分析功能的数据库。

目前HTAP系统架构大致有如下四种,第一种是行存为主,内存列存为辅,针对有需要的表会同时存在一份行存储和列存储,在列存储上做分析操作,在行存储上进行更新,定期同步到列存储里,可以灵活指定需要采用行存与列存的表,也可以系统运行时更改表特性。主要难点为哪些数据转为列存、如何用行存和列存回答查询,代表系统为Oracle;

第二种是主机行存、备机内存列存,备机通过日志复制转为内存的列存提供分析能力,代表系统为MySQL HeatWave,分析型查询由系统查询引擎基于代价估计后决定是否下推到内存列引擎中执行,常被访问的热数据将会留在内存中,不常使用的冷数据将会被压缩后持久化到外存中;

第三种是多副本行列共存,通过多副本进行存储,主采用行存,副本采用列存,代表性系统为TiDB[4],行存数据存储在TiKV中,列存数据存储在TiFlash中,行存和列存松耦合,通过异步复制Raft log的方式将更新从行存节点同步到列存节点,列存节点不参与Raft协议的日志提交和leader选举等分布式事务,具有较高负载隔离性和扩展性,数据分析新鲜度偏低;

第四种是列存为主,行存为辅。增量数据通过delta表定期转为列存,主列存主要处理OLAP类分析查询,增量行存负责OLTP类事务操作,并直接将更新数据定期合并到主列存中。此类系统因为以列存为主,所以OLAP的性能很高,且增量行存直接与列存连接,数据分析的新鲜度也很高。但缺点也很明显,就是OLTP处理性能中等,扩展性也不高,负载隔离性很低,代表系统为SAP HANA,主列存通过压缩、向量执行和OLAP多维分析等技术进行查询加速,同时利用CPU多级缓存机制优化事务处理。

实现HTAP的关键技术主要包括行列转换技术、行列共存的查询优化技术、行列共存的事务处理技术等。HTAP典型产品有Oracle、SAP HANA、MemSQL、Hyper、SQL Server、Greenplum、TiDB、IBM IDAA[5]、Google F1 Lighting[6]、OceanBase和PolarDB等。需要注意的是,HTAP的价值在于更加简单通用,对于绝大部分中小规模的客户,数据量不会特别大,只需要一套系统即可,但对于超大型互联网企业,HTAP数据库的分析性能可能不如专用OLAP数据库或大数据平台。

趋势三:运用AI实现管理自治

人工智能与数据库的技术融合可以体现在两个方面,一方面可以通过AI技术实现数据库的自优化、自监控、自调优、自诊断;另一方面可以实现库内AI训练,降低AI使用门槛。从赋能对象来看,人工智能与数据库的结合既可以体现在数据库系统自身的智能化,包括但不限于数据分布技术智能化、库内进行训练和推理操作、数据库自动诊断、容量预判等;也可以体现在数据库周边工具的智能化,能够在提升管理效率、降低错误引入率、减少安全隐患的同时也大大降低了运营成本。

目前学术界和工业界共识的研究重点是将机器学习与数据管理在功能上融合统一,来实现更高的查询和存储效率,自动化处理各种任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、安全无失。

2019年6月,Oracle推出云上自治数据库Autonomous Database;2020年4月,阿里云发布“自动驾驶”级数据库平台DAS;2021年3月,华为发布了融入AI框架的openGauss2.0版本。其均采用上述思想降低数据库集群的运维管理成本,保障数据库持续稳定、高效运行。

AI与数据库融合在如下方面还存在亟待攻克的挑战:一是目前技术缺乏对数据库系统的整体感知,仍停留在各个环节的局部优化层面;二是自治数据管理对系统稳定性的保障仍然存疑,没有考虑系统鲁棒性;三是如何提供空间和时间上小巧轻量的学习模型是AI赋能查询优化技术的关键问题;四是如何保证多场景下映射的严格一致性约束;五是面对频繁变化的场景,如何将训练好的系统迁移到新的数据库业务并保持较好性能。六是如何在每个服务层中动态选择适当组件并组合适当的执行路径,例如,优化器通常包括基于代价、规则和学习模型三种组件,可以根据用户需求选择最好的。数据库如何与人工智能技术更好地结合,未来还有很多种可能。

趋势四:充分利用新兴硬件

最近十几年,新兴硬件在经历学术研究、工程化和产品化阶段发展,对数据库系统设计提供了广阔思路。期间最主要的硬件技术进步是多处理器(SMP)、多核(MultiCore)、大内存(Big Memory)和固态硬盘(SSD),多处理器和多核为并行处理提供可能,SSD大幅提升了数据库系统的IOPS和降低延迟,大内存促进了内存数据库引擎的发展。

新兴硬件可以从计算、存储和传输三个层面赋能数据库。计算层面,借助GPU、FPGA、AI芯片等,可以实现包括但不限于多核并行优化、事务并发控制、查询加速、存储层计算卸载、数据压缩加速、工作负载迁移等能力;存储层面,随着NVM的出现和发展,内存和外存的界限变得模糊,针对传统块存储设计的索引在NVM中面临新的性能挑战;传输层面,RDMA带来网络传输高性能表现和CPU卸载能力,为充分榨取其性能,可能对数据库系统的架构设计带来颠覆性变化[7]。

根据第三方机构Wikibon预测,2026年SSD单TB成本将低于机械硬盘,达到15美元/TB;非易失性内存(NVM)具有容量大、低延迟、字节寻址、持久化等特性,能够应用于传统数据库存储引擎各个部分,如索引、事物并发控制、日志、垃圾回收等方面;GPU适用于特定数据库操作加速,如扫描、谓词过滤、大量数据的排序、大表关联、聚集等操作,互联网公司在FPGA加速进行了很多探索,例如微软利用FPGA加速网卡处理,百度用FPGA加速查询处理等。

随着新型硬件成本逐渐降低,充分利用新兴硬件资源提升数据库性能、降低成本,是未来数据库发展的重要方向之一。

趋势五:与云基础设施深度结合

Gartner预测到2022年75%的数据库将托管在云端。近十年云计算技术的不断发展催生出将数据库部署在云上的需求,通过云服务形式提供数据库功能的云数据库应运而生。

云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、易运维性和资源隔离等特点,具体有两种形态,一种是基于云资源部署的传统数据库,即数据库云服务(Database as a service);另一种是基于容器化、微服务、Serverless等理念设计的存算分离架构的云原生数据库。

云原生数据库能够随时随地从多前端访问,提供云服务的计算节点,并且能够灵活及时调动资源进行扩缩容,助力企业降本增效。以亚马逊AWS、阿里云、Snowflake等为代表的企业,开创了云原生数据库时代。

未来,数据库将深度结合云原生与分布式技术特点,实现计算、内存和存储三者解耦、分层池化;实现查询级、事务级、算子级等更细粒度的弹性按需计算。帮助用户实现最大限度资源池化、弹性变配、超高并发等能力,更加便捷、低成本实现云上数字化转型与升级。

趋势六:隐私计算技术助力安全能力提升

随着数据上云趋势显著,云数据库面临的风险相较于传统数据库更加多样化、复杂化。如何解决第三方可信问题是云数据库面临的首要安全挑战。

当前云数据库数据安全隐私保护是针对数据所处阶段来制定保护措施的,如在数据传输阶段使用安全传输协议SSL/TLS,在数据持久化存储阶段使用透明存储加密,在返回结果阶段使用数据脱敏策略等。这些传统技术手段可以解决单点风险,但不成体系,且对处于运行或者运维状态下的数据则缺少有效的保护。

近年来,全密态数据处理、安全多方计算等将会是未来数据安全隐私计算的发展方向。全密态数据处理重点关注如何对数据进行加密存储以便在加密后的数据上进行多种类型的查询,密态数据库(Encrypted Database)利用全同态加密等技术对数据进行加密存储以实现尽可能提高云服务处理加密数据的能力。

加密方式分为基于软件和基于硬件加密两种,基于软件的典型产品为CryptDB,针对不同查询使用了保序加密、半同态加密、全同态加密等算法对数据进行加密存储;基于硬件的加密将操作转移至可信硬件(TEE)处理单元(如SCPU、Intel SGX),以获得更好的效率和通用性。该类产品在实际应用中仍然存在执行效率和数据操作过程中的安全性等挑战。

未来,全密态数据库将在软硬结合、支持范围查找的密态索引、动态数据安全存储等方面着意进行技术突破。安全多方计算最早研究工作成果为SMCQL,借助混淆电路技术,能够联合两个参与方的关系型数据库执行复杂的SQL查询且不泄露除查询结果之外的任何其他数据,随后Conclave将该框架用于大数据处理引擎上,结合秘密共享技术,能够联合三个参与方各自引擎执行复杂分析,但执行效率较低,为提高效率,未来可从结果精度和特定操作两个角度入手,一些工作将差分隐私技术与安全多方计算相结合,以降低精度为代价提升计算执行效率,此外,还可以针对数据库连接等经典操作针对性优化。

然而,在落地应用方面,主要挑战包括效率与参与方数量两点,具体表现为基于通讯和计算开销的效率挑战和参与方数据的可扩展性挑战。

未来,此类数据库将围绕算法安全性和性能损耗等问题,逐步突破,进而提供覆盖数据全生命周期的安全保护机制。

趋势七:区块链数据库辅助数据存证溯源

区块链具有去中心化、信息不可篡改等特征,区块链数据库能够长期留存有效记录,保护数据不被篡改,数据库的所有历史操作均不可更改并能追溯,适用于金融机构、公安等行业的应用场景。

区块链数据库典型产品有BlockchainDB、BigchainDB和ChainSQL等。该类产品具体研究问题主要分为数据存储与事物处理两大类,存储方向分为键值对和关系型数据存储,事物处理方向聚焦于在区块链上完成数据库的事物并发控制、访问控制授权、查询处理优化等传统问题。

区块链数据库由于要容忍节点拜占庭行为而不得不采用代价更高的PBFT、PoW 等共识算法成为落地应用的一大挑战,此外,由于没有统一的协调者,如何保证区块链网络分片时分布式系统的安全性,高并发下的并行控制如何保证ACID也都是设计者不可忽视的问题。

该类产品目前还存在基于共识算法执行效率挑战和多方参与的数据隐私性挑战。未来区块链数据库将在平衡系统可信性与吞吐量、实现基于链上链下混合存储的防篡改机制、实现面向跨链场景的数据协同处理系统等方向进行突破。未来,提升区块链数据库性能将成为学术界与工业界共同探索的命题。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群