博客 数据治理系列分享之数据治理建设思考

数据治理系列分享之数据治理建设思考

   数栈君   发表于 2023-02-16 10:04  247  0

00

前言

数据治理这一概念最近越来越受到企业的关注,笔者也在两家公司完成数据治理从0-1的建设,从数据集成、数据质量、数据资产、数据安全、数据交换各个环节。数据治理是个大话题,包含的环节也非常多,所以拆开了多期内容与大家共同讨论。


01

定义

 数据治理基本上有两种定义。第一类【数据】治理,主要解决指标标准、数据不准的问题,解法相对于聚焦一些,应用工具指标管理平台、数据质量平台,甚至直接由研发“人肉智能”就能够见效。第二类数据【治理】,主要解决数据全生命周期的问题,从数据采集、数据质量、数据应用、数据安全、数据分享各个环节。


02

思考

数据治理是一个系统化且长周期的工程,虽然治理的路数和思路基本上大同小异,基本上三大抓手“组织架构、治理工具、运营监控”,但是因为下面几个问题,所以在各企业落地的方式和形态都不太一致。


01  角色

数据治理绝大部分都是由内向外,在企业内部形成闭环,那我们所在部门在公司的角色是重中之重,这影响到可以获得的支持、调动的资源、协调的部门、取得的收益。


第一类国企,那看数据治理这份工作是什么视角,是软件部门所在的治理还是以监察审计出发,可以参考成熟的数据治理成熟度模型-DCMM去建设治理体系,不会犯错,看当前有多少预算,多少资源选择性去做(下图有些删减,仅供参考)

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/33161d708dbb3c07b7afa9f6d93c1f2f..jpg


第二类私企,一般业务部门的数据团队进行【数据】治理,保障数据的准确性的一致性即可。而在数据中台则考虑的更全面、更体系,笔者现在是数据中台,所以后续内容站在中台视角讲的多些,下面先简单讲讲数据中台。


数据中台是围绕数据从生产、存储、质量、使用、传输、共享、冷存储到毁灭的全生命周期,是满足数仓研发工程师、数据科学专家、产品经理、分析师、决策管理者等不同角色对数据的应用需求,具备海量多源异构数据整合、实时数据计算与发布、统一通道数据调用与分析能力,支持高可复用、高可靠、高效的且开放型数据治理能力的数据应用平台。


02  阶段

从数据的价值角度来看,总结有两个阶段「业务数据化和数据业务化」,企业处于不同的阶段,我们所实施的治理的步骤顺序也有一定重心调整。


业务数据化实际上就是业务发生的过程形成数据,比如教培行业的课中学习数据、老师授课数据、广告投放数据等等。那这一部分治理的重心就在于数据埋点、数据入库、数据存储、数据标准、数据质量、数据指标,保证数据及时、完整、一致,为数据分析做好有效有效支持。


数据业务化实际上就是数据加工后,从中找出规划后反哺业务。比如音乐平台,根据用户之前的听歌记录,通过算法判断用户的喜好,推送歌单给用户,提升用户的粘性和留存。亦如电商平台根据客户的历史购买记录,给客户推荐商品。这个阶段重点治理数据仓库、数据资产、数据分析、数据安全、数据应用等,释放数据价值。


03

价值

如何评估数据治理的价值呢?这往往也是另我们最头疼的,本质上来讲数据治理的价值就是降本增效、控质提安、赋能决策,治理的收益有很多,但是要知道的是上面想拿哪些收益,这也是影响治理的重要性和执行力度的关键。


01  降本

成本一般由四部分构成,分别是采集、计算、存储、应用。降本是这里面收益最直观、见效最快、最好衡量,毕竟和Money挂钩,这四部分收益最快的存储>计算>应用>采集。存储可以直接采用下服务、删除冗余数据等手段,衡量的指标可以直接用“存储节约TB/元”。计算可以在有限的资源里去合理的分配,或者使用监控手段,比如一条计算大约多少钱,当然这一部分有明确的业务预算和高层的支持。应用和采集是相对不好拿收益,采集是大数据的源头,理论来讲其实是越多越好,而应用是最终服务的呈现,治理的话牵一发动全身,还需慎重。


02  增效

增效的角度可以从查询效率、查询时间、时间成本都可以作为治理收益。比如我查询数据之前要用一个小时,现在用十五分钟。


03  控质

从数据质量角度出发,数据故障率、数据及时率、数据完整率等指标进行监控。


04  提安

安主要是讲数据的安全,数据安全可以从风险项、数据安全覆盖率、数据脱敏等角度出发。“安全无小事,责任终于山”,安全这个方向要么不出事要么就是出大事,所以数据一定要监控留痕,以防事后追责。最近行业内安全事故层出不穷,各个企业也都越来越重视。


05  赋能决策

这个方向比较长效,串联部门也多,更需要深入业务,比如数据模型、画像标签直接带来的收益,还有一种思路比如说不同数据源他的业务产生的价值区别。


04

策略

对内有的时候治理规则太多,不能落地,导致大而全,没办法集中资源,拿不到有效的收益。对外有的时候治理规则太多,不能落地,毕竟需要很多团队参与,效率协同也很重要。


01  体系

所有数据治理体系已经很成熟了,阿里云的dataworks、华为云的DataArts Studio等,但是如果采用自建数据体系,一定不能因为治理而治理,要从实际出发,找到企业自身痛点,确定优先级。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/947887416fb20248e4e831cd0a1acd1c..jpg


02  组织

首先,在做数据治理前重中之重一定要有高层的支持,自上而下的去推动,否则只是停留在口号阶段。其次,数据治理谁负责?谁执行?从笔者公司的数据中台角度来说,建立数据体系,平台工具,最终由业务数据团队协同配合和使用。


数据委员会的建立,一般是有企业的高级管理者组成,负责数据战略创建和批准,负责项目、政策、授权的制定和协同。数据治理小组一般是负责人角色,负责整理体系的方案构建、平台落地、评估规划。


业务治理团队一般是执行者角色,使用平台工具按照标准规范生产加工数据,根据评估体系来治理数据所存在的问题。协同团队一般财务、hr团队,给予数据治理资源的协调和支持。


03  运营

数据治理不是一个 “阶段性项目”,而是一个“可持续的运营项目”。针对企业存储、规范、质量、资源、安全、价值等六个方面形成数据治理评估体系,可以采用健康分的形式,以现存的问题为驱动的理念,覆盖事前、事中、事后的全链路主动式数据治理和治理评估。


05

总结

数据治理是一个大工程,所以在动手之前要做好充足的思考和调研,所以也就有了此篇文章,后续数据治理章节会以平台工具为话题去安排,按照体系中的架构图,包含指标管理平台、数据质量监控平台、数据地图、数据安全中心等。




免责声明:

本文转载自一个数据人自留地,版权归原作者所有,如若侵权请联系我们进行删除!


  • 袋鼠云在大数据领域深耕7年,拥有丰富的大数据平台建设经验和成熟的产品体系,想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

    同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群