博客 央国企集团数据治理&高质量数据集建设场景解决方案

央国企集团数据治理&高质量数据集建设场景解决方案

   数栈君   发表于 18 小时前  18  0

当前,央国企集团数据治理建设总目标可概括为“五个统一”:统一的数据治理体系、统一的数据标准、统一的资产管控、统一的安全合规、统一的价值运营。

从政策驱动看,国家已明确将数据定位为新型生产要素,通过“数据二十条”、国资委数字化转型、国资在线监管审计等政策,将数据工作纳入央国企考核体系——既作为数字化转型年度评级标准,也作为巡视审计监管的核心审查内容。数据治理已从加分项转变为必答题,合规达标成为企业运营底线。

从管理驱动看,多数大型央国企普遍存在数据壁垒:各级子公司、各业务板块数据相互独立,系统异构、口径不一,形成大量数据孤岛,导致数据不可用、不敢用、无法共享。数据治理的核心作用在于打通内外部数据壁垒,建立可信、完整的统一数据底座,实现横向覆盖全业务、纵向逐级穿透至各级子公司,使集团总部做到自上而下的穿透式管控,依托全域数据为经营决策、产业链协同提供有力支撑。

从趋势驱动看,AI大模型技术全面普及,已成为打造新质生产力的关键抓手。但许多企业存在“先建AI、后补治理”的建设倒置问题,导致AI项目停滞在单点试点。AI能否规模化发挥价值,核心取决于是否拥有标准化、高质量、经过治理的数据基础。搭建一体化的数据治理体系是集团数字化转型的必经之路。

五大共性痛点与解决措施

结合政策要求及大量企业实践,绝大多数企业推进数据治理时会卡在组织、标准、质量、监管、AI五类共性问题上,严重制约集团穿透式国资监管。

https://assets.dtstack.com/2021bbs/files_user1/article/997a993a0f2fe077bfe1cb74c9c156b8..png

一、顶层组织与管控机制。 多数企业将数据治理划为IT部门工作,业务部门不认领数据责任,子公司认为治理是总部任务,配合度低,无常态考核,治理变成阶段性任务。解决措施:搭建集团、产业板块、子公司三级联动治理架构。集团成立数据治理委员会统筹制度与考核;产业板块设数据治理专员落地标准;子公司设业务数据负责人承担数据真实性、完整性责任,形成“业务主责、IT支撑”模式。将数据治理成效纳入集团数字化转型考核,指标包括标准达标率、整改时效等,结果与数字化评级挂钩,用制度倒逼全层级参与。

二、数据标准与横纵贯通体系。 横向各业务系统相互独立,指标口径不一,同一经营指标统计结果矛盾;纵向集团无法穿透至一线,反复向下要报表,基层重复填报、手工汇总,时效性和准确性难保障。解决措施:打造横向全域覆盖、纵向逐级穿透的一体化数据底座。通过全域流程梳理,发布集团统一的数据标准、主数据标准、指标口径及业务术语,严格落实“一数一源”;通过一体化数据底座实现全板块、全层级数据统一汇聚,替代传统手工填报。

三、数据质量与数据资产管理。 质量管控高度依赖人工,无自动化校验工具,历史数据大量缺失、重复、格式混乱;无统一数据台账,数据处于沉睡、不可管状态。解决措施:搭建全流程自动化质量校验体系,针对数据完整性、准确性、一致性、及时性、规范性、唯一性配置自动化校验规则,在采集加工全链路自动识别脏数据,生成预警推送给业务负责人,形成“发现—预警—整改—复核”闭环。同时全域梳理数据资源,编制统一数据资产目录与血缘链路,将零散数据转化为可管控、可追溯、可运营的资产。

四、国资监管与经营业务赋能。 各层级数据口径不一,无法自动汇总,难支撑国资委穿透式监管;集团高层缺少统一数据底座,各部门数据矛盾,风险预警和经营决策缺少稳定支撑。解决措施:统一全集团数据资产、监管指标与上报通道,依托一体化数据底座实现全层级经营数据自动归集;基于治理后高质量数据搭建集团经营看板、智能风险预警模型,自动识别财务、投资、供应链等各领域风险,为集团提供实时、可信的数据支撑。

五、AI规模化落地的数据底座支撑。 许多企业急于落地大模型,先上AI系统、后补治理,原始数据杂乱、未清洗、未标注,导致模型训练效果差、应用单一、无法推广。解决措施:坚持“数据治理前置、治理底座先行”。在启动AI应用前先完成全链路数据治理,基于标准化清洗后的全域数据分类构建集团通识、行业通识、行业专识数据集,为大模型智能分析、智能问答提供可靠数据燃料,规范“先治理、后智能”的建设顺序。

整体架构与核心链路

一整套可落地的数据治理体系在框架层面分为三块:左侧是自下而上完整还原数据从生产到价值落地的全生命周期链路;中间是各层数据流转汇聚的核心载体——央国企高质量数据集;右侧是通过六层标准化管控链路形成的全程闭环。架构遵循从采集源头、标准化加工、模型沉淀、资产服务到最终业务赋能的递进思路。

https://assets.dtstack.com/2021bbs/files_user1/article/a302dd2ece804dba149922d4c0ce7599..jpg

底层数据源是所有治理工作的起点。企业数据划分为两大类:结构化数据(财务、人力、经营、投资、供应链等,来源于ERP、OA、HR、WMS等业务系统)和非结构化数据(经营报告、合同文档、工程图纸、巡检照片、制度文件等多模态资料)。过去许多企业只重视结构化数据,忽略了图纸、文档等非结构化数据,导致资产沉睡。此外还包括时序数据、上下游生态数据等,需将多模态数据同等纳入治理范围,实现全域覆盖。

数据采集层的目标是将分散各处的多元数据统一、稳定汇聚至平台,支持批量与实时双模式。采集手段包括:数据库方式同步业务系统数据、API接口对接第三方系统、文件导入适配合同报表等非结构化数据、日志采集抓取系统运行数据、表单填报承载手工填报数据、实时流数据对接设备监控参数。集团内外部数据实现统一入口。

https://assets.dtstack.com/2021bbs/files_user1/article/9da0a453953428c69fba893276804fe5..png

数据处理层是保障数据质量的关键环节,包含流水线式加工链路:数据接入与整合(清洗、去重、字段映射);数据加工与处理(通过统一标准识别异常数据,进行聚合汇总);数据增强(面向非结构化数据搭载NLP、OCR、特征提取、音转文等,将文档图纸视频转化为可计算的结构化特征数据);数据脱敏(对隐私数据加密处理);质量校验(遵循六大特性自动化拦截脏数据);数据融合(将处理后的结构化与非结构化数据统一汇集至高质量数据集)。整套流程通过可视化界面配置及周期性调度,替代人工Excel整理模式。

https://assets.dtstack.com/2021bbs/files_user1/article/25afd6b5858cd2a47ba3282c057cf784..png

数据模型构建层分为结构化主题建模和非结构化建模。结构化建模:贴合央国企业务特点划分数据域(财务域、人力域、合同域等),每个域搭建贴源层、明细层、汇总层、应用层四层模型,统一业务术语和指标口径,落实“一数一源”。非结构化建模:针对多模态数据搭建文本模型、图像模型、视频模型,同时构建企业知识图谱,沉淀制度、工艺、合同等知识,为智能问答和AI分析提供知识底座。两条链路最终汇集到央国企高质量数据集,分为集团通识、行业通识、行业专识三类,承载经营、财务、人力、知识库等全维度治理后数据。

https://assets.dtstack.com/2021bbs/files_user1/article/4c865ce6b2ecbe8bbfc92deef37e406a..png

数据服务层对模型与数据集进行标准化封装,实现统一输出,包括:数据目录服务(配套元数据、血缘查询,提供全集团资产检索)、数据API服务(统一接口发布与调用监控)、数据服务共享(管控内外部共享权限)、数据分析服务(多维分析、可视化、自助分析)、数据开放服务(面向AI及外部合作方提供数据集开放订阅)。服务层实现数据按需、可控、安全共享。

数据应用层是数据治理最终价值落地场景,覆盖经营决策分析、智能研判、风险预测、国资监管、AI创新应用等,实现从数据资源到管理价值及智能价值的转换。

闭环治理管控体系贯穿六层,从数据标准开始,覆盖全流程数据质量监控、数据分类分级安全管控、数据生命周期管理、监控审计到持续优化(PDCA闭环)。该管控链嵌入采集、处理、建模、服务、应用每一个环节,实现数据从生产到销毁的全生命周期可控。

https://assets.dtstack.com/2021bbs/files_user1/article/0c5f3f831f0f601499e71823f7f51208..png

高质量数据集分层构建

基于央国企全场景智能化需求,将企业数据集拆分为三层架构。

通识数据集面向全员,无需专业背景即可理解,支撑集团通用大模型、全员智能问答、标准化流程检索,如集团统一政策文件、考勤制度、报销通用制度等。

行业通识数据集面向各板块业务人员,需具备基础行业及经营背景,适配集团级行业通用大模型,支撑经营、财务、人力等共性场景的智能分析,如集团经营数据、财务核算通用规则、行业研究报告等。

行业专属数据集面向细分业务线专业人员,需深厚专业背景,用于训练业务专属垂直模型,实现智能化深度落地,如财务进出口关税抵扣规则、地产专项审计、工程造价、医疗电子病历等。

https://assets.dtstack.com/2021bbs/files_user1/article/b8571d4c183575eb2d70b0a28812a877..png

高质量数据集构建分五步。

前置规划:界定数据集覆盖范围,梳理数据内容并检验源头可用性,判断现有数据是否满足AI训练标准,配套搭建质量监控模型,完成底层架构设计。

标准化数据采集:匹配业务数据源适配多样化采集方式,通过可视化配置定时任务,全程监控任务运行状态及源头数据质量。

数据预处理:对原始数据进行清洗、格式转换、同类聚合、特征创建,针对多模态数据完成向量提取、OCR识别、语义转换,转化为大模型可理解的标准化特征数据。

数据标注:根据AI应用场景灵活选择是否开展,依托生态能力支撑全模态数据标注。

全维度校验验证:通过模型性能验证、数据质量复合校验、模型召回测算,确保数据集适配业务场景。校验中发现缺陷则回流至预处理和采集环节持续迭代改进。

https://assets.dtstack.com/2021bbs/files_user1/article/766c2fb1500546f5333d0da57ee19159..png

实践案例

该企业涉及多种实体业务板块及专属系统,异构系统下数据量大、类型繁杂。通过全量业务系统统一对接,完成结构化、时序、文件数据的统一汇聚,解决多业态数据割裂问题。所有数据统一汇入分布式统一存储底座,提供分布式存储、离线计算引擎、分布式数仓、对象存储等能力,既承载财务、人力等结构化明细数据,也通过对象存储承载图纸、视频、文档等多模态数据,兼顾批量离线计算与海量数据存档需求。在数据治理处理层,提供多模态数据套件(完成文本图像预处理、特征提取、OCR识别、多模态融合),全域数据治理(划分数据域、分层建模、统一指标口径、质量管控),治理套件(数据汇聚、资产管控、资产台账、血缘完善),模型训练模块(数据标注、模型训练、调优迭代形成高质量数据集)。按三层分类封装为战略规划、经营管控、审计、趋势分析等标准化数据服务。应用层覆盖战略规划、投融资、经营管控、库存优化等核心场景,兼顾国资委合资监管刚性需求。通过数据安全管理办法、数据资产管理制度体系等贯穿整个治理建设过程。

https://assets.dtstack.com/2021bbs/files_user1/article/b6a48546cc64860ea9f8f207a482d95d..png

总结

对央国企而言,数据治理是政策刚需、管理刚需、发展刚需。必须自上而下推动全流程建设,建立多层级的组织与考核机制。建设思路坚持“治理先行、标准统一、一数一源”。技术层面需覆盖采集、加工、建模、服务、应用全链路,兼顾结构化与多模态数据。最终目的是以数据治理为底座,赋能数字化转型,培育新质生产力,打造企业核心竞争力。

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料