一、“数据孤岛”的危害
企业发展到一定阶段,必然会跟随时代发展进行信息化建设。而信息化建设的不平衡,催生了“数据孤岛”现象的产生:
1、数据重复:由于数据流通不畅,企业各部门在收集数据时会产生重复行为,造成了数据的重复、冗余、无效等情况,降低了数据的质量和准确度。
2、错误决策:数据的不准确、不及时,往往导致企业决策错误或决策迟缓,从而影响企业的口碑和在市场中的竞争地位。
3、协作不良:企业内部数据孤岛现象的显著,会在很大程度上使得企业各个部门、团队之间,因难以获取工作需要的数据,而关系紧张、协作不良。
4、效率低下:由于不同部门对数据的理解和定义不同,企业内部的沟通成本上升。同时,各部门对数据的重复管理,造成了时间和金钱的浪费、工作效率的低下。
5、客户体验差:企业内各部门拥有的数据不一,容易造成客户端到端的体验混杂,总体评价低。
那么,解决“数据孤岛”的好办法是什么?——数据治理!
二、数据治理是一切的基础
数据治理很火,在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。
数据治理要定战略、定制度、建组织,这是顶层策略,这每一项都牵一发而动全身,都需要高层领导的大力支持和推动,业务部门和技术部门的紧密协同。
数据治理要立标准、理流程、清数据,需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据质量。数据治理人员不仅要有良好的数据思维,还要有足够的细心、耐心和体力才能实现企业数据质量的不断提升,打磨出适合企业的数据标准。
三、数据治理的重要目标——数据质量
数据治理非常重要的一个目标,就是提升数据质量。当然我们在讲数据质量审查的时候有这么几个角度,一个包括我们数据的属性怎么看,我们的语义定义是怎么看,我们的规则怎么看,这些都是我们进行数据质量审查的时候去了解我们的现状,去了解我们的基准线,了解我们的数据治理的起点在哪里,会发现标准的异常,会发现事实标准,我们会对语义定义、业务规则进行认定,通过这种探讨,我们去发现一些跨系统历史数据的现状。
我们在看数据所谓的六性的时候,往往可以看出我们的业务管理跟我们的数据治理管理是怎么关联起来的,横向跟纵向是互为因果的关系。比如说你在做数据探查的时候,你在做数据质量检查的时候,你发现一致性有问题,而所有权跟责任这个板块里面是缺失的,说明这个板块的管理的内容的缺失会导致一致性的问题出现,也会导致准确度的出现。为什么?因为所有权不一样,这个没做好就有多头管理,多头管理它就有不同的定义,不同的定义就会影响它的准确度,一致性的问题。
反过来也是一样的,比如说像数据定义和标准化不一致的问题,会导致它的完整性的问题,为什么?因为它会产生不同标准,在一个系统里面他认为他是完备的,但在另外一个系统里面他是不完备的,所以探查完整性很快就会发现这个问题。当然还有准确性的问题,这些我相信是我们在做数据探查,在做数据诊断的时候,看到的不仅仅是数据本身的问题,它其实反映了整个数据治理的问题,这个就是为什么说数据探查能够推动我们数据治理的原因。
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术 群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack/Taier