数据血缘背后的核心思想,是充分理解数据如何在具备数据存储和处理能力的基础设施中,从一个系统流转至另一个系统的过程。这似乎不应该是一个困难的问题,但事实确实如此。面对2022 年及未来,此类问题对组织来说是一个艰难的问题。如果组织不知道他们的数据从哪里来或往哪里去,则由此产生许多不同层面的风险,数据环境的稳定性自然也难以保障。不稳定的数据环境意味着难以从数据中提取价值,而数据就是新型石油或新型黄金。这些没有能力从数据中提取价值的组织很有可能在商业竞争中被具备提取数据价值能力的组织所取代。
综观当下,我们的现代技术文明充满了让数据血缘变得简单的例子。比如炼油厂是一个大型的基础设施,按照精确的规格进行建造,操作人员很清楚地知道那些流水线中的液体产品在发生着什么化学反应、有多么地危险——诚然,极特殊情况下,悲剧还是会时有发生。现代通信网络是复杂工程背景下的一个精妙案例,它由网络运营中心(NOCs)完全控制,电话信号从出发地畅通无阻地传输到目的地。
我们承认数据血缘是一个很难解决的棘手问题,但数据血缘到底是什么呢?要回答这个问题,我们想像一下公司防火墙第一道关卡捕获到的数据项,也许它们是正常的数据传输。数据被就地保存并不再维护的时代早已过去,自然而然,这些数据项会被传输到其他数据平台(数据库或文件),防火墙捕获的数据项不断追加,直到某一时刻,这些数据会被处理、转换成一份份数据信息报告,报告主题可能是数据消费平台、操作系统甚至面向客户的应用程序。随着数据项的迁移流转,它可能会被复制,或者被标准化处理,或者被用于统计整体数据环境的指标。上述描述的这些数据项的经历——数据存储在哪里、迁移流转的路径、该过程中数据发生了什么变化,它又如何成为其他数据项的构成部分,以及它在不同数据消费平台中出现的位置——这些内容构成了数据血缘。
理解水平和垂直数据血缘
然而,我们需要意识到数据血缘的另一个特性,即它可以存在于不同的层次,每个层次都有其独有的特点和价值。
数据血缘首先以手工记录入档的方式在系统之间流转,从高度抽象的维度来理解,可以认为这是水平数据血缘,通常是数据集粒度。它的优点是提供一册大体积的图文,用来展示客户数据在组织系统之间是如何流动的。就目前而言,这类数据对架构师和业务用户有很大的帮助。但是在很多情况下,这些数据无法满足基于某个数据项切入并继续深入挖掘的需求。此时垂直数据血缘就出现了,对于垂直数据血缘,我们需要逐层地分析数据细节,直到满足数据分析的目的,即逐列地分析数据(或列数据报告)在迁移过程中的转换处理逻辑。
垂直数据血缘可以回答诸如报表中特定单元项数据值的来源,或者数据值在两列数据之间流转时的计算逻辑等问题。对于某些岗位的人员非常有用,比如 BI 分析师这样试图解决数据报告中指标值异常的人员,或者试图明确平台迁移时数据影响范围的数据分析师。