博客 高校基于数据中台的数据治理

高校基于数据中台的数据治理

   数栈君   发表于 2023-04-06 18:02  522  0

目前,数据进行全方位治理的方法包括四项:

  • 进行数据调研,保证“一数一源”,建立资源目录;

  • 建立覆盖教育管理信息化工作各要素的工作制度,包括数据标准、数据管理制度等;

  • 采用数据中台规范数据全生命周期的活动,全面掌握数据使用情况,对数据进行分类分级,形成数据溯源图谱;

  • 通过数据支撑各种智慧校园应用。

数据治理现状

随着信息化的发展,华南理工大学上线了许多新的信息化项目,产生了更多新数据,例如学生画像需要学工处、招生办、教务处、研究生院、一卡通、财务处、保卫处等部门的数据。

疫情以来,保卫处新开发的周界安防系统同样也需要一卡通、人事处、学工、离退休办公室、后勤、资产处等部处提供的人员和建筑物数据。

华南理工大学校园风光(图源官博)

学校目前的数据治理存在以下情况:

1.数据类型多样化。除了传统的核心系统数据,如人事、学生、科研数据以外,还增加了物联网数据、在线网课数据、智慧课室和智慧安防的音视频非结构化数据,以及消费产生的手机支付流水数据等,包罗万象,数据格式不再限定于结构化数据。我校要管理的数据除了各类业务数据外,还将包括各类日志、IOT数据、半结构化和非结构化数据等。

2.碎片化的单一数据难以发挥数据的整体价值。新时代的数据治理需求应该是从全盘考虑所有数据,理清各系统之间数据的内在逻辑和相互之间的关联,从实际情况出发,要把原始数据清洗整合成各类数据主题库,需要制定科学的数据标准,尤其是符合校情的各种校级数据标准。

3.数据实时性不强。数据共享方面,传统的ETL数据推送属于非实时同步,API接口方式可以做到实时共享。数据源到数据中心的实时同步涉及多种因素,需要数据源所属应用系统的配合。

4.数据对接成本高。在数据交换方面,以第三方系统的数据需求为驱动,一旦有新需求,需要三方(交换平台厂家数据源系统厂家和第三方系统厂家)一起商议修改或者增加视图接口,对接成本高。所以,数据接口以视图为主,配置难度高、效率低。

5.数据运维缺乏安全监管,运维压力大。数据管理方面技术门槛高,难以实现自主管理,需要运维人员长期驻场维护,运维代价高。

6.数据质量不高。交换平台受限于平台功能,只能做一些粗略的检查处理,以直接交换数据为主,数据质量较低。交换平台只有主数据,内容维度有限。

7.查错成本高。当数据推送内容出现错误时,交换平台通常认为平台只负责数据交换,对数据内容不担责任,第三方系统往往要找数据源系统查错,如果数据源不止一个地方,查错的运维成本也很高。

以上数据问题是华南理工大学考虑部署数据中台的背景。数据中台能对海量数据进行采集、计算、存储加工,并形成标准的数据资产层,为校内外应用系统提供高效的数据服务。

数据中台的

全新架构与数据治理

华南理工大学的数据中台架构分为四层:基础设施层、支撑平台层、应用平台层和终端用户层。其中,支撑平台层提供数据资产目录和数据服务接口,同时实现数据权限管理;应用平台层覆盖个人数据中心、部门资源中心和校级决策中心。数据治理主要在支撑平台层和应用平台层实现。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/bbc5366f0eb47ba30697742d39cde6ff..jpg

△  “四库三中心”中台的数据治理架构

数据中台采用全新的数据架构“四库三中心”,对数据进行全域治理。如上图所示:

  • 四库包括基础数据仓库、统计指标库、主题库(应用支持库)、专题库(数据分析库);

  • “三中心”分别是个人数据中心、部门资源中心和校级决策中心。

除了“四库三中心”,治理架构还实现“四统一”和“四保障”

  • “四统一”是指提供四种统一数据开放方式,包括API接口、ETL数据推送、数据库直连和离线文件共享;

  • “四保障”包括保障内容充实、保障数据标准落地、保障质量闭环、保障长效机制。

“四库三中心”中台的数据治理架构着重开展以下四方面工作:

  1. 深加工数据,计算各类指标,生成各种报表,为各应用系统提供共性数据;

  2. 满足各应用系统的个性化需求,通过定制各种专题为应用系统提供数据支撑;

  3. 提供数据收集、指标管理、数据上报、数据检索、数据可视等功能,满足部门的具体业务需求;

  4. 个人数据中心提供各种微观数据来辅助个人填表,可以减少重复填报,还能为成绩评价和学分计算等提供基础数据,与此同时,个人可以通过纠错补录、及时更新数据等方式协助中台进行数据维护。

数据治理实施步骤

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2f8f1419b86ba50de2ea3d5d092aad2e..jpg

华南理工大学的数据治理的具体实施过程,分以下五步:

第一步,把数据源原始数据汇聚到数据湖。

第二步,对数据湖数据进行清洗,把其中有价值的数据抽取到数据仓库。这一步骤会在数据仓库中形成各种主题库,如学生主题库、科研主题库等。此外,在数据清洗的同时也会确定数据标准、确立权威数据。

第三步,把数据资产发布到数据集市。数据集市的数据以API接口的方式提供给上层应用调用。

第四步,应用部署上线,例如师生画像、大屏显示等应用,它们从数据集市获取到的数据经过一定的算法模块分析后进行展示。

第五步,应用上线后,各级用户通过职能行使,对数据进行反馈:领导层通过监督考核继续推进数据治理进程;师生用户通过检索和纠错,协助订正平台数据;各个部门对新的数据变化进行审核和发布。全体用户的参与成为数据治理中不可或缺的部分。

数据治理关键环节

数据治理是一个持续不断的过程,只要还有新数据产生,数据治理工作就不会停止。治理过程有两个关键的环节,分别是数据汇聚和数据清洗。


1.数据汇聚

数据汇聚指先对业务系统进行全面调研,对数据进行摸底。

最理想的情况是业务系统负责人、业务系统厂家和中台系统技术人员,三方面对面会谈。

但实际上由于业务系统大部分运行多年,维护厂家基本不驻场,所以调研通常是中台技术人员访谈业务系统负责人。

为了弥补不足,一个可行的办法是通过建群的方式,把厂家负责人、业务系统负责人组织起来,在线讨论数据对接。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7c37e972907002a8e9534d7927c3f543..jpg

当中台要跟业务系统做数据对接的时候,需要业务系统提供数据字典、代码表和数据库全库只读账号。

业务系统数据全库接入有利于中台进行全量数据分析清洗,这一阶段对接的数据只是进入数据湖进行数据分析,还没有到数据共享阶段,业务系统不用担心敏感数据泄露,后面需要进入数据仓库进行共享的数据会让业务部门再次审核批复。

全库只读是最具争议的步骤,需要业务系统信任中台,需要各级领导的支持。

由于各种客观情况无法开放全库的业务系统,可以采用数据视图对接,这个方案需要业务系统、厂家的全力支持和配合,对接代价高。


2.数据清洗

数据入湖后需要进行数据清洗。中台技术人员根据业务系统提供的数据字典、代码表和接入的数据进行分析,编制数据质量报告。

报告会提出当前存在的各种数据问题,包括代码表缺失、数据空值、数据逻辑错误、大量测试数据等。

质量报告会反馈给业务系统管理员,由厂家协助业务系统管理员回答各种数据问题。在这个阶段中,还要确定数据标准,尽量使用国标行标,否则就要建立校标。

通常校标尽量以业务系统自定义的代码表为准,减少对已有系统的影响。确定权威数据源也是在这个阶段实行。例如学生数据是以学工处数据为权威,科研数据的权威数据源来自科技处,一些有争议的权威数据源需要各方协商。

最后不管是权威数据还是学校数据标准都要责任到具体部门,要有明确结论,否则会影响后期的数据开放使用。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

140页深度干货,囊括15个典型成功案例,覆盖金融、集团、政务、制造、港口5大行业,全书从方法论到实践全面解码数据治理,开辟数据治理新范式,丰富内容可免费获取!

免费获取链接:https://fs80.cn/4w2atu


想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群