博客 数据治理中的常用概念解析

数据治理中的常用概念解析

   数栈君   发表于 2023-04-06 18:02  163  0

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

国际数据管理协会DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。

国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。


数据治理内容

编辑 播报

企业财务管理为例,会计负责管理企业的金融资产,遵守相关制度和规定,同时接受审计员的监督;审计员负责监管金融资产的管理活动。数据治理扮演的角色与审计员类似,其作用就是确保企业的数据资产得到正确有效的管理。

由于切入视角和侧重点不同,业界给出的数据治理定义已经不下几十种,到目前为止还未形成一个统一标准的定义。 [1] 

ITSS WG1认为数据治理包含以下几方面内容

(1)确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现;

(2)确保有效助力业务的决策机制和方向;

(3)确保绩效和合规进行监督。


数据治理过程 [2] 

从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管(监管就是我们在执行层面对信息系统的负反馈),而监管的职能主要通过以下五个方面的执行力来保证——发现、监督、控制、沟通、整合。


数据治理类型

编辑 播报


应对型治理

应对型数据治理是指通过客户关系管理(CRM)等“前台”应用程序和诸如 企业资源规划ERP)等“后台”应用程序授权主数据,例如客户、产品、供应商、员工等。然后,数据移动工具将最新的或更新的主数据移动到多领域MDM系统中。它整理、匹配和合并数据,以创建或更新“黄金记录”,然后同步回原始系统、其它企业应用程序以及数据仓库或商业智能分析系统

缺点:

批量集成和应对型数据治理方法引入的时间延迟可能导致业务部门继续操作重复、不完整且不精确的主数据。因此,这会降低多领域MDM方案实现在正确的时间向正确的人员提供正确数据这一预期业务目标的能力。在期望被设定为数据将变得干净、精确且及时之后,批量集成引入的时间延迟让人感到沮丧。应对型数据治理(下游数据管理员小组负责整理、去重复、纠正和完成关键主数据)可能导致让人认为“数据治理官僚化”。

应对型数据治理还会导致最终用户将数据管理团队看作“数据质量警察”,并产生相应的官僚化和延迟以及主数据仍然不干净的负面认识。这还将使得MDM方案更难实现它的所有预期优势,并可能导致更高的数据管理总成本。此方法的风险是组织可能以“两个领域中的最差”而告终,至少部分上如此–—已在MDM方案中投资,但是只能实现一些潜在优势,即在整个企业内获得干净、精确、及时以及一致的主数据。

改进方法:

有三个方法可超越应对型数据治理。

1. 用户将数据直接输入到多领域MDM系统中:用户使用界面友好的前端将数据直接输入到多领域MDM系统中,但是他们的新记录和现有记录的更新留在暂存区域或保留区域,直到数据管理员审核和认证为止。这之后MDM系统才接受插入或更新,以便进行完整的整理、匹配、合并,并将“最佳记录”发布到企业的所有其他应用程序。此方法好过将一个完全不同的应用程序(例如CRM或ERP系统)作为“录入系统”,但是它仍然会出现延迟和效率低下。尽管存在这些缺点,使用暂存区域确实解决了大部分问题,例如不用强制执行重要属性的录入或在创建前不必进行彻底搜索。此外,由于我们并不受传统应用程序或现代CRM或ERP应用程序如何处理数据录入功能的影响,通过不对应对方法进行批量数据移动,我们还大大缩短了时间安排。

2. 用户输入直接传送到多领域MDM系统中的数据:在外面输入新记录或更新,但是会立即传送到MDM系统,以便自动整理、匹配和合并。异常或例外传送到数据管理员的队列,几个管理员便可支持更多最终用户。这是第一个主动方法的改进,因为我们利用MDM系统的业务规则数据整理和匹配功能,只要求管理员查看作为整理、匹配和合并流程的例外而弹出的插入或更新。

3. 用户使用特定于数据治理的前端输入数据:第三个方法是允许最终用户直接录入到多领域MDM系统中,但是应使用专为主动数据治理方法而设计的前端。可专门为最终用户数据录入设定屏幕,您可利用功能齐全的MDM系统允许的自动化、数据整理、业务规则、搜索和匹配等所有功能。因此,不必首先将数据输入到MDM系统的暂存区域中,并且您不需要系统外的单独工作流应用程序。


主动型治理

主动数据治理的第一个优势是可在源头获得主数据。具有严格的“搜索后再创建”功能和强大的业务规则,确保关键字段填充经过批准的值列表或依据第三方数据验证过,新记录的初始质量级别将非常高。

主数据管理工作通常着重于数据质量的“使它干净”或“保持它干净”方面。

如果MDM系统中的数据质量初始级别非常高,并且如果您不会通过从CRM或ERP源系统中传入不精确、不完整或不一致的数据来连续污染系统,则主数据管理的“保持它干净”方面非常容易。

主动数据治理还可有效消除新主记录的初始录入和其认证以及通过中间件发布到企业其余领域之间的所有时间延迟。由用户友好的前端支持的主动数据治理可将数据直接录入到多领域 MDM 系统中,可应用所有典型的业务规则,以整理、匹配和合并数据。当初始数据录入经过整理、匹配和合并流程后,此方法还允许数据管理员通过企业总线将更新发布到组织的其它领域。

主动数据治理方法消除了“数据治理官僚化”这一认识,因为主数据的授权已推给上游的业务用户,使数据管理员处于很少被打扰的角色,他们将不会成为诸如订单管理或出具发票等关键业务流程的瓶颈。

销售和营销均受益,因为可更迅速且经济有效地完成营销活动,在启动活动之前无需前期数据纠正。财务上也受益,因为将一次性捕获新客户需要的所有数据元素,添加新客户的流程包括提取第三方内容并计算信贷限额,然后将该信息传回ERP系统。

没有直接访问MDM系统权限的客户服务代表通常必须搜索几个系统,找到他们需要的信息,从而采取措施。当通话中的客户没有耐心时,很难提供高级别的服务。当所有信息存储在MDM系统中并可通过有效、用户友好的前端进行访问时,客户服务代表将能够访问每个客户交互需要的所有数据,并能够在需要时授权新数据

通过使MDM成为录入系统及记录系统,您能从本质上将数据维持在“零延迟”状态,它在这种状态下适合企业中的任何预期使用场景,同步到CRM和ERP系统的数据的清洁性、精确性时效性以及一致性应当处于最高级别。

数据治理中的一些常用概念

1数据元

是指用一组属性描述定义、标识、表示和允许值的数据单元。数据元由三个部分组成,包括“对象”、“特性”和“表示”。例如,个人信息中心,手机号为数据元,“131********”为数据元的值。

2数据标准

  良好的数据标准体系有助于数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准适用于业务数据描述、信息管理及应用系统开发,包括基础标准和指标标准(或称应用标准)。可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。

(1)业务定义业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。

(2)技术定义技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。

(3)管理信息管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。

3元数据

  元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。

元数据分为业务元数据、技术元数据和管理元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,管理元数据为两者的管理提供支撑。(1)业务元数据业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。

(2)技术元数据它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等;关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。

(3)管理元数据管理元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的数据。

4主数据

主数据是企业内需要在多个部门、多个信息系统之间共享的数据。例如客户、供应商、组织、人员、项目、物料等数据。与容易波动的交易数据相比,主数据变化较慢。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。主数据在数据治理中的主要作用是用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。

5业务数据

是业务活动过程或系统自动产生的既定事实的数据,也称为交易数据。业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

6主题数据

是根据数据分析的需求,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。

7数据仓库

是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理和决策。数据仓库是为企业所有级别的决策制定过程中提供所有类型数据支撑的战略集合。

8数据质量

  高质量的数据是进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。

9数据集成

  可对数据进行清洗、转换、整合、模型管理等处理工作。如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,可高效快速完成数据的传输、清洗转换、装载落地等处理过程,保证数据可靠性,既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。

10数据交换

  用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。

11数据生命周期

  任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。

12数据安全

  数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。

(1)数据存储安全包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。

(2)数据传输安全包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。

(3)数据使用安全需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。

(13)数据湖

是一个以原始格式存储数据的存储库或系统,按照原始样貌将数据进行存储,而无需事先对数据进行结构化处理。数据湖可以存储结构化数据、半结构化数据、非结构化数据和二进制数据等。数据湖可以更方便、以更低成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。

3、数据资产

1定义

数据资产是指由企业过去的交易或者事项形成的,并由企业拥有和控制,预期会给企业带来经济利益的数据资源,并且其价值和成本是可以计量的。

2数据成为数据资产的四个核心条件

① 数据资产是企业的交易或事项形成;

② 由企业控制或拥有;

③ 预期会给企业带来经济利益;

④ 成本或价值可以衡量。

3数据资产的利益相关方

① 数据的生产者;

② 数据的拥有者或控制者;

③ 数据价值和经济利益的受益者。

4数据治理和数据资产的关系

数据治理从本质上来说,不是对“数据”的治理,而是对“数据资产”的治理。数据治理可以有效盘活企业的数据资产。

4、数据治理的价值

1降低业务运营成本,提升业务处理效率;

2改善数据质量并控制数据风险;

3增强数据安全;

4赋能管理决策。

5、数据治理面临的五类问题

1黑暗数据

也叫睡眠数据,是指被收集和处理,但又不用于任何用途的数据,有数据而不用,甚至业务部门和领导都不知道其存在,这些数据可能永远被埋没。除了睡眠数据外,很多时候还可能有“数据尾气”问题,数据尾气是指那些针对单一目标而收集的数据,通常在用过之后就会被归档闲置,其真正价值未能被充分挖掘。

2数据孤岛

是指企业发展到一定阶段,各个部门各自存储数据,部门之间的数据无法共通,导致数据像一个个孤岛一样缺乏关联性。

3数据不通

常见于不同部门、不同员工由于数据定义不清、口径不同、缺乏规范而无法顺畅交流与沟通。

4糟糕的数据质量

数据的可信性是影响数据分析和管理决策的重要因素,然而企业数据普遍存在着不一致、不完整、不准确、不正确、不及时的问题。

5数据的安全风险

数据如果缺乏有效管理,就比较容易产生数据安全问题。例如,缺少数据的采集、存储、访问和传输之间的规范制度,没有设定必要的数据使用权限,就必然会导致数据遗失、篡改或泄密。

6、企业数据治理常见的六个挑战

1对数据治理的业务价值认识不足;

2缺乏企业级数据治理的顶层设计;

3高层领导对数据治理不够重视;

4数据标准不统一,数据整合困难;

5业务人员普遍认为数据治理是IT部门的事情;

6缺乏数据治理组织和专业的人才。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群