数据架构可以说是数据工作的蓝图,我以为数据架构有标准的定义和内涵,但翻遍全网,发现业界对数据架构的认识并不完全一样。
考虑到数据架构对于数据工作的极端重要性,在研究了众多文献后,结合自己的真实经历,我这里给出全新版本的数据架构图,见下图,共包括6大模块。
为什么会是这些内容?它们的具体内涵是什么?下面听我道来。
一、传统数据架构定义
1、DAMA
数据架构识别企业的数据需求,并设计和维护总蓝图以满足需求,使用总蓝图来指导数据集成、控制数据资产、并使数据投资与业务战略保持一致。主要包括数据模型、数据流设计。
2、华为数据之道
数据架构是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。主要包括数据资产目录、数据标准、数据模型及数据分布。
3、DCMM
数据架构通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。
4、Software Architecture Academy
数据架构是数据系统的蓝图,它满足产品的业务需求,并描述如何收集、存储、转换和分发数据。它由数据模型、治理策略、规则和标准组成,需要实施和遵循这些模型、治理策略、规则和标准,以构建强大而安全的数据系统。
5、IBM
数据架构描述如何管理从收集到转换、分发和使用的数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。它是数据处理操作和人工智能 (AI) 应用程序的基础。
6、TOGAF 9.2
数据架构描述了一个组织的逻辑和物理数据资产及其数据管理资源的结构。
从以上定义中,我们能看出一些共性,但似乎也说不清楚,然后我们回到第一性原理,看看架构的本质是什么。
架构是对组件要素的设计,旨在优化整个结构或系统的功能、性能、可行性、成本和用户体验。在国际标准ISO/IEC/IEEE 42010:2011中,将架构定义为:“系统的基本结构、具体体现在架构构成的组件、组件之间的相互关系以及管理其设计和演变的原则”。
综合以上所有的定义,最后我得到了一个比较满意的定义:
数据架构是对组织中数据资产的结构化表示,它涵盖了数据的定义、存储、组织、集成和管理方式,旨在提供一个清晰的蓝图,使组织能够有效地管理和利用其数据资产,确保数据的一致性、完整性和可访问性,支持业务需求和决策过程。
但关于数据架构具体内涵是什么,包含哪些输出物,业界各有看法,比如《华为数据之道》认为数据架构应该包括数据资产目录、数据标准、数据模型及数据分布,如下图所示。
温昱在《业务架构.应用架构.数据架构实战》一书中认为数据架构应该包括数据类型及其来源、数据模型、数据存储、数据流及数据管理,如下图所示。
本文系转载,版权归原作者所有,
转载自公众号 与数据同行 ,如若侵权请联系我们进行删除!
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs
《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack