博客 数据中台之数据地图

数据中台之数据地图

   数栈君   发表于 2024-06-14 11:21  553  0

引出数据地图

元数据管理系统的核心应用价值在于数据地图和数据血缘

在解决数据的“可供应性”之后,企业应该帮助业务更便捷、更准确地找到它们所需要的数据,这就需要打造一个能够满足用户体验的“数据地图”。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b3655e601ec820a4a3d258db1840b98c..jpg


数据地图的核心价值

数据供应者与消费者之间往往存在一种矛盾:供应者做了大量的数据治理工作、提供了大量的数据,但数据消费者却仍然不满意,他们始终认为在使用数据之前存在两个重大困难。


1)找数难

企业的数据分散存储在上千个数据库、上百万张物理表中,已纳入架构、经过质量、安全有效管理的数据资产也会超过上万个,并且还在持续增长中。例如,用户需要从发货数据里对设备保修和维保进行区分,以便为判断哪类设备已过保(无法继续服务)提供准确依据,但生成和关联的交易系统有几十个,用户不知道应该从哪里获取这类数据,也不清楚获取的数据是否正确。


2)读不懂

企业往往会面对数据库物理层和业务层脱离的现状,数据的最终消费用户无法直接读懂物理层数据,无法确认数据是否能满足需求,只能寻求IT人员支持,经过大量转换和人工校验,才最终确认可消费的数据,而熟悉物理层结构的IT人员,并不是数据的最终消费者。例如,当需要盘点研发内部要货情况的时候,就需要从供应链系统获取研发内部的要货数据,但业务用户不了解该系统复杂的数据存储结构(涉及超过40个表、1000余个字段),也不清楚每个字段名称下所包含的业务的含义和规则。
企业在经营和运营过程中产生了大量数据,但只有让用户“找得到”“读得懂”,能够准确地搜索、便捷地订阅这些数据,数据才能真正发挥价值。


《华为数据之道》对数据地图的定义如下:

数据地图(DMAP)是面向数据的最终消费用户针对数据“找得到”“读得懂”的需求而设计的,基于元数据应用,以数据搜索为核心,通过可视化方式,综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系,让用户高效率地找到数据,读懂数据,支撑数据消费。


这么看来,数据地图似乎也包含数据血缘的功能,而且不只是基于元数据的应用,而是应用通过元数据结构采集来的具体数据


服务的用户群体

1)业务分析师

业务分析师是企业最大的数据消费群体,具有良好的业务背景,有些数据分析师本身就是业务人员,了解业务需求实质,理解业务含义,与利益相关者有良好的沟通。通过对数据的识别,借助数据分析工具,生成可供阅读的图表或者仪表板,使用分析结果识别问题,支撑决策。对数据可信度、业务含义、数据定位有强烈诉求。

2)数据科学家

数据科学家是指能采用科学方法、运用数据挖掘工具对复杂异构的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能进行新的数据洞察的工程师或专家。对业务含义、数据关系有强烈诉求。

3)数据管家

公司数据管理体系的专业人员,负责协助数据Owner对数据信息架构进行管理,包括定义信息架构中的责任主体、密级/分类,为数据安全管理提供重要输入。通过信息架构设计,统一业务语言,明确管理责任,设定数据质量标准,拉通跨领域信息流,支撑运营和决策。对数据质量、信息架构、数据关系有强烈诉求。

4)IT开发人员
主要为企业的数据仓库开发人员,通过对物理表进行定位、识别和ETL,创建满足业务分析师或者应用平台所需要的模型或维表。对数据定位、数据关系有强烈诉求


具体功能

(1)数据搜索

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/79c40a3926589a49c3b06ea138b3d876..jpg

(2)排序推荐

以属性名称组合搜索为例,一组属性名称串联起来,连用“订单履行经理,BU,CF_EPD,ETRAK标识”组合搜索,结果集中全匹配、部分匹配的结果会按照前后的顺序进行排列,匹配程度越高的数据资产排序会越靠前,如图所示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cd543c2ed762f5dc0d1e36be8bdd933b..jpg

(3)数据样例

读懂数据”是用户进行数据消费的基础,用户只有读懂数据,才可以准确判断数据的来源、质量、可信度等关键信息。除了可以通过提供数据资产的各类元数据信息来辅助用户读懂数据外,生产环境的实时数据对用户而言更有参考价值,因为生产环境直接采集的数据的内容,与用户可消费的数据内容是一致的。
接下来看一个样例数据查看的示例:
用户在搜索结果中点击样例数据,能够自动读取数据库名称,并根据对象编号,查找数据库记录表,实现生产环境数据的样例查看,如图所示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f44a39317a08aeabcd7c32fa24c58fe1..jpg

 (4)资产/用户画像

资产/用户画像通过标签化的手段来对资产和用户进行清晰地描绘,有助于数据搜索和推荐排序的不断优化,贴近用户真实需求。基于用户画像、经验模型库和资产画像理解文本语义,可以提高搜索准确性,解决资产查不到、难挑选等问题,并通过业务运营不断优化资产搜索能力,如图所示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/09e8ea5aef550ef62b2112bbdf0b6793..jpg


博主总结

数据地图说白了就是提供给用户按不同需求进行搜索的功能,不单纯只是对元数据的应用。这种功能基于开源搜索引擎ElastichSrarch或Solr实现更容易


本文系转载,版权归原作者所有,

转载自公众号 数据与算法架构提升之路 ,如若侵权请联系我们进行删除!  


《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群