作者:Kyligence
回顾过去的 2021,疫情并没有阻断科技的发展与进步,大数据行业涌现了诸如数据编织、数据湖仓等热门词汇,同样也有像数据中台词汇热度逐渐褪去。我们参考了例如 Gartner、Thoughtworks、Forrester Research 等咨询公司等大量行业内的报告,为大家带来 2021年度十大数据热门词汇盘点,也为大家解读一下它们背后的技术。
01
数据编织 (Data Fabric)
数据编织是由 Gartner 定义的一种概念。它是一个基于企业用户行为,自动建立起元数据的新兴的、动态变化的数据结构,是数据和连接流程的集成层。
近几年 Gartner 的十大数据与分析技术趋势报告中,都出现了“Data Fabric” (数据编织)这一概念。Gartner 将数据编织定义为一种设计概念,将其作为数据和连接流程的集成层。数据编织会对现有的、可发现的和可推理的元数据资产进行持续分析,以支持设计、部署和利用所有环境中的集成和可重用数据,包括混合云和多云平台。
数据编织支持在适当的地方访问数据或对其进行整合。它不断识别和连接来自不同应用的数据,以发现可用数据点之间独特的业务联系。这种洞察力支持重新设计的决策,通过快速访问和理解提供比传统数据管理做法更多的价值。
数据编织目前是全球大数据行业的热点之一,众多国际著名的 IT 公司包括 IBM、Informatica 和 Talend 等,均推出了针对数据编织的解决方案。
02
数据湖仓 (Data Lakehouse)
数据湖仓是由 Databricks 提出的一种新型数据架构,它通过一种新的开放和标准化的系统设计实现:直接在数据湖的低成本存储上实现与数据仓库中相类似的数据结构和数据管理功能。
以往,企业除了使用数据湖为人工智能(AI)场景服务,还要使用数据仓库来支持交易类分析和商业智能(BI)。在实际生产中,许多企业都受到这种数据技术栈带来的挑战,比如数据处理流程重复、基础架构复杂和成本高昂等。越来越多企业选择尝试合并两种场景,为所有类型的数据分析、商业智能和机器学习等需求提供统一的体验。
这也是 Databricks 推出湖仓概念的重要原因之一,因为 Databricks 认为同时支持 BI 和 ML 的数据平台基础设施才是数据分析的未来。于此同时,Snowflake 和 Redshift 等云数据仓库也在拓展到 AI/ML 的场景做了非常多的倾斜和资源投入。
这样一体化的权衡其实也证明了,数据仓库还是有着数据高质量的管理能力,数据湖有着很好的灵活性,二者在短期内无法替代彼此,只能选择一种方式长期共存下去。
03
智能数据云 (Intelligent Data Cloud)
智能数据云是由 Kyligence 提出的下一代数据仓库的设想,指的是一个 AI 增强的数据服务和管理平台,在这个平台中,用户使用数据就像使用水电一样简单,人人都能随取随用,自助使用 (Self-Serve)。
从技术角度来看,智能数据云是之前数据仓库、数据湖、湖仓一体等技术体系的继承和延续,既有数据湖的低成本存储和可扩展性,也有数据仓库的强化数据结构和数据管理能力。在此之上,智能数据云还提供更高一层的业务数据对象管理能力,并从业务对数据的读写需求出发,使用 AI 增强的方式自动化和简化技术层面的人工数据操作和数据管理。向外,智能数据云提供普通人可用的数据服务;向内,智能数据云以业务为导向自动化数据的操作和管理。
04
数据网格 (Data Mesh)
数据网格的是由 Thoughtworks 的 Zhamak Dehghani 提出的一种数据域驱动的分析架构。其中数据被视为一种产品,由最了解这些数据并消费这些的团队来负责管理。
集中式数据平台架构往往无法以企业所需的速度和灵活性提供数据。Dehghani 提出的分布式数据网格则解决了这一问题,其新的架构有四个主要特点:
面向数据域的分布式的架构;
产品思维,数据即产品;
自助式的基础设施平台;
联邦的数据治理。
来源:https://martinfowler.com/articles/data-monolith-to-mesh.html
推动数据网格的核心原则是纠正数据湖和数据仓库之间的不协调。数据网格应用了现代软件工程的原则和从建立强大的互联网规模的解决方案中获得的经验,以释放企业数据的真正潜力。
05
数据目录 (Data Catalog)
数据目录是所有数据的系统性列表,数据是以表、文件、报告等形式存在于公司的各种源系统中。数据目录显示了所有数据实体的位置、关于每个数据片段的大量关键信息,帮助企业或机构了解数据的定义和来源,数据的特性、使用者以及使用场景。
数据目录的工作原理很像时装目录,但它没有详细介绍泳装或鞋子,而是从一家公司的 ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。数据目录中包含关于每个数据片段的关键信息,如数据的概要(关于数据的统计或信息摘要)、血缘(数据如何生成) 以及其他人对它的看法。数据目录是数据分析师、数据管理员、数据科学家和其他人员寻找和理解相关数据集,以建立洞察、发现趋势和为公司确定新产品的切入点,也是元数据 (Metadata) 的重要基础。
据 Forrester Research 称,只有14%的企业利益相关者对客户的信息进行深度分析。这是因为大多数公司无法访问他们的数据。数据目录解决了这个问题,它使数据易于找到,为每个数据片段提供了跨数据库的全景视图,同时明确了不同数据片段之间的关系。此外,它还为组织的数据治理计划奠定了基础。
06
数据安全 (Data Security)
数据安全是指围绕数据这种生产要素、信息资产所产生的一切行为活动的完整性、保密性、可用性、安全性话题合集。
以往,很多人会认为数据安全就是网络安全 (Cyber Security) 下的一个分支。从今年开始,数据安全彻底“出圈”了,其本身已经超出了纯网络、信息、技术安全的范围,而被提升至了国家安全层面。
今年《中华人民共和国数据安全法》(以下简称《数安法》)和《中华人民共和国个人信息保护法》(以下简称《个保法》)的颁布和施行,进一步规范了数据处理活动,保障数据安全,促进数据的开发与利用,保护个人、组织的合法权益,更好地维护国家主权、安全和发展利益。
新的《数安法》和《个保法》不仅仅是两部法律,也提供了一种全新的视角,告诉我们关注数据安全,不要再只是盯着防止数据泄露所带来的损害,还要看到数据本身所能产生的价值和影响。
数据安全不只是数据如何处理的问题,而是数据如何管理的问题,更是彻底跳出了纯技术问题的桎梏。所有数据拥有者,从个体到企业到国家,不但需要构建完善的管理框架,而且还必须厘清使用数据的各方的权力和义务,协调共同参与数据安全管理。在数据时代,如何让数据资产的价值最大化,同时损失最小化,才是数据安全最需要关注的问题。
07
数据治理 (Data Governance)
数据治理这个名称最近几年时间一下子火了起来,业界也流传出了“数字转型、治理先行”的说法。
数据治理的核心是为分析用例准备和展示数据,而数据治理的重点是所有数据处理系统中的数据。传统的 IT 架构中,由于业务和技术分布在每个系统层面,这种对数据的总体看法需要特别处理,最好是由组织内的一个中央机构来处理。
数据治理需要作为数据战略的指导机制。一个适当的数据战略可以协调将业务战略转化为数据分析。它使企业能够从数据中获得价值。数据战略管理着所有业务流程中的数据利用,以促进业务效率和创新。实施数据战略需要数据治理,包括管理、监测和保护数据资本的政策和框架,还要考虑到人员、流程和技术。建立数据治理是一项长期的工作。最重要的是,它需要管理层对如何处理和使用数据做出明确、自觉的决定。
08
数据即产品 (Data as a Product)
正如美国首席数据科学家 DJ 帕蒂尔所定义的,数据产品是“通过使用数据促进最终目标实现的产品” 。大数据时代,我们对数据要进行产品思维的转变,数据要变成一种产品:它是一种有“客户”的东西,目的是让这些“客户” - 数据分析师和数据科学家 - 高兴。可以说,每一家公司都是一个数据公司。而这些宝贵的数据资产,可以以产品的形式进行包装,就形成了数据产品。
其实这样的数据产品是大众并不陌生的,对于普通消费者来说,日常生活中其实经常见到这样的数据产品,它可以是我们手机银行中的电子账单,也可以是丁香医生提供的新冠疫情地图。
09
数据 API (Data API)
数据 API,通过 RestfulAPI 等各类接口的形式对外提供数据服务,适用于数据库不直接对外开放,通过接口提供高并发、快返回的数据服务场景。
例如,企业内部将数据中台加工的结果数据,以数据 API 的方式提供给上层数据应用、数据门户,可视化大屏等;证券公司将股票、债券等行情数据通过数据 API 的方式提供给外部客户;新媒体企业将资讯通过 API 的方式提供给外部客户等,主要解决数据对外快速共享的场景,通过数据 API 将数据对外服务化,也即变现了数据的价值,充分利用了企业内的数据资产。
10
数据资产 (Data Assets)
数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。
维克托·迈尔·舍恩伯格在《大数据时代》曾经提到过:“虽然数据还没有被列入企业的财务报表,但这只是一个时间问题”。
并不是所有的数据资源都是数据资产,只有可控制、可计量、可变现的数据才可能成为资产。其中,数据资产的变现属性,体现数据价值的过程,叫做数据资产化。尽管有很多人意识到数据是企业的核心资产,但是对无形资产的评估比较困难,尤其是数据资产的量化和评估。首先缺乏财务量化模型,不知道如何评价数据价值;其次数据要在交易过程中才能变现,而在内部流通的过程中却不能折算成财务意义上的价值,因此其在企业内的价值无法体现在财务报表上。
由于篇幅所限,还有一些数据热词暂未能收录在本篇博客中,大家可以自行搜索学习一下:
数据文化 (Data Culture)
数据素养 (Data Literacy)
数据战略 (Data Strategy)
数据运维 (DataOps)
数据血缘 (Data Lineage)
......