数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。从技术角度来看,数据治理涉及的IT技术主题包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。
元数据是提升数据价值的前提,是数据治理的基石
元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。
元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。
例如:元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。
技术元数据主要是描述系统中技术领域的相关概念信息,包括数据结构、数据处理方面的特征描述,以及数据源接口、数据仓库、数据集市、存储等全面数据处理环节的信息。这类元数据主要被系统建设的技术人员使用。主要有以下几个类型:
管理元数据用来定义系统中涉及管理领域的相关概念等信息,包括人员角色、岗位职责等内容,例如对项目管理、IT运维、IT资源设备等相关信息的描述,这里元数据主要被企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。管理元数据进一步细分又可以划分出认责元数据、稽核元数据、安全元数据、操作元数据、存储元数据等分类。例如操作元数据有系统执行日志;访问模式、访问频率和执行时间;程序名称和描述;版本维护等;备份、归档时间、归档存储信息等。不管分类如何变化,实质性内容都是围绕数据的统一定义、数据的标准规范、数据的处理过程、数据从存储要求、数据的安全管理要求等等内容进行规范管理。
在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。在传统意义上,元数据有两方面的用处:
第一,帮助数据平台了解自己本身的情况。
例如:有哪些数据、存储的数据有多大、如何找到所需要的数据、数据何时产出等等信息,当我们拿到这些信息后,就可以做对应运维报警等工作。
第二,帮助数据平台制定数据统计的标准。
例如:数据口径如何统一、计算指标如何统一、数据之间的关系如何、数据的上下游关联数据是什么等等信息,打通了上下游数据之间的关联关系,就可以为数据质量及维护可视化奠定基础。
元数据也是根据实际业务场景定义属性,元数据会有通用的属性,比如名称、类型,不同类型的元数据还会有自己特定的属性。元数据既然也是数据,肯定是存储在数据库中的。元数据存储库是指存储元数据的物理数据库表,通常采用开源的关系型数据库(MySQL)实现元数据存储,下面从几个方面展开说说如何管理元数据:
1.确定元数据范围
首先确定元数据来源范围。在实际的工作中,通常会选择业务数据做元数据管理,非业务数据是不会纳入管理范围内的,主要还是因为元数据管理是提供业务和开发人员快速掌握业务数据。
确定规则后,就要结合公司的实际情况去梳理哪些业务系统、数据库、数据库用户、哪些表需要做元数据管理。当然也可以支持非结构化的元数据抽取,例如:word、pdf等。
2.接入元数据
元数据一般都是从源系统接入。假如公司已经存在数仓或者实时性要求不高,为了节约开发工作量,对于已有的元数据会从数仓接入,还未接入的会从源系统进行接入。但这种方案也是存在风险的,假如数仓的数据和源系统出现不一致,就会导致元数据出错。现在大部分的元数据抽取都是采用配置自动化的方式进行。
3.建立元数据标准
在梳理的过程中可能会出现有些数据库或者有些数据定义不规范的情况,导致元数据管理无法进行下去。那接下来需要建立元数据的管理规范,去反推前端的源数据进行整改,主要是保证元数据的完整性和一致性。
针对不同的类型的公司要求,元数据会开放给不同的人群,所以要对元数据进行权限管理,规范里面就需定义权限的管理流程:元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程。
4.元数据的维护
元数据维护主要是对已经发布的元数据进行维护管理,已经发布上线的元数据,如需调整、优化则必须重新走元数据发布流程,不允许对元数据进行直接修改。为了安全,元数据所有操作行为都要记录到元数据操作日志里面。可以对元数据创建目录将不同的元数据挂在对应的目录下,按照业务流程、业务主题域、开发流程设计对应的目录,主要还是根据公司要求设计。
5.元数据的查找、分析、报告
有单独的页面支持元数据的模糊或精准快速查找,通过输入关键信息查找对应的元数据。还可以将元数据作为数据资产的一类,因此我们需要产出元数据资产报告,从报告中能够快速的了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。
元数据是用数据管理数据,是快速查找数据、精确定位数据、准确理解数据和有效使用数据的关键。元数据管理还须符合数据标准、较高的数据质量、数据安全、数据共享、合理顺滑管理流程。在存储、计算和人力成本合理可控、可管理的前提下,使数据价值得最大发挥,是数据全生命周期管理重要组成部分,是提升数据价值发挥的前提,是数据治理的基石。
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!
免费获取链接:https://fs80.cn/4w2atu
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack