博客 一个标签具体有哪些基本信息?

一个标签具体有哪些基本信息?

   数栈君   发表于 2023-07-24 14:06  130  0

在开展对数据的各种分析应用之前,如果在数据仓库的基础上再开展一些数据标签的工作,提前做一些准备工作,那么后续对数据应用的设计开发将更加深入、更加便利,也更容易快速交付。


整个数据中台的系统规划如下图所示。从这里可以看到,数据标签介于数据仓库与数据集市之间,在数据仓库之上,是为数据集市做的准备工作。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/933ecefbdf1494e4dda2f79aaff110de..jpg

数据标签在数据中台中的位置


如果以数据标签为基础再开展各种数据分析与应用,那么对数据的分析利用将更加深入与便捷,这就是数据标签的作用。



01  什么是数据标签?


标签由标签和标签值组成,打在目标对象上,如下图所示。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/456922099b441e9e6a74470b38b3d74f..jpg

打标签示例


标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。

  • 在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;
  • 在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。



02  数据标签的分类


对数据打标签,可以由浅入深地分为以下三种类型。


1)属性标签就是对业务实体各种属性的真实刻画。比如企业类型、所处行业、经营范围、所处地域等信息,用户性别、年龄段、职业状况、身高体重等信息,发票类别、代开发票、作废发票、异常发票等信息。


这些标签可以从某些字段直接获得,也可以通过某些字段进行一个条件判断获得。


2)统计标签就是对业务实体从某个维度的度量进行的汇总,比如企业的月经营业绩、月增长额、季增长额、前n名的客户或供应商的交易额等。


通过这些统计可以真实地反映该企业的经营状况。


3)算法标签就是通过某些算法推理得到的特性。算法标签相对比较复杂,但非常有用。它既可以设计得简单易行,如企业的行业地位、交易成功率、客户开拓能力、客户忠诚度、企业成长度等。


也可以运用一些数据挖掘算法进行推算,如通过用户近期的购买商品推算该用户的性别、职业、兴趣喜好、购物习惯,以及是否怀孕、是否有小孩等信息,以便日后的精准营销、商品推荐。


华为将标签分为事实标签、规则标签和模型标签,如下图所示。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9a8012d0713551adcf45034816d56e04..jpg

三种类型的标签


事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的。


规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的。


模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。



03  数据标签的设计


数据标签通常按照以下步骤分析设计。


1、确定标签对象

数据标签的设计首先从确定标签对象开始。数据标签是规划在数据集市这边的,就意味着它的设计与数据分析业务息息相关。


真实的世界有那么多的事物,每个事物都有那么多的属性,因此漫无目的地打标签没有意义。给什么事物打什么样的标签,一定是与分析业务息息相关的。


数据标签的对象可以是人(个人/群体)、事物与关系,比如用户、企业、订单、发票,以及开票行为、供销关系,等等。


给什么对象打标签,关键在于我们对数据分析与应用的兴趣点,对哪些方面的事物感兴趣。譬如,要进行精准营销就要关注用户的购物喜好,要进行防虚开风控就要关注企业开票行为,等等。


2、打通对象关系

很多标签,特别是算法标签,都是通过比对某个对象方方面面的状况推算出来的。如何才能推算呢?就需要通过某些key值将该事物方方面面的属性关联起来。


譬如,将用户通过订单与其购买的商品关联起来,然后又将哪些是婴儿用品关联起来,那么通过这些关联就可以推算某用户是否有了小孩;将企业所处的行业与地域关联起来,同时汇总各行业、各地区的平均水平,就可以推算该企业在本行业、在该地区的经济地位,等等。


3、标签类目设计

确定了标签对象,打通了对象关系,那么就正式进入标签设计环节。


标签的设计首先按类目进行划分,把标签对象按照业务划分成多个不同的方面,接着再依次确认每个类目下都有哪些标签。



04  数据标签的实现


通过以上分析,确定了数据标签的对象以及标签的类目,接着就是数据标签的设计实现。


每个标签都有它的规则,通过一系列脚本定期生成。但数据标签设计实现的核心是标签融合表,即标签按照什么样的格式存储在数据库中。


标签融合表的设计通常有两种形式:纵向融合表与横向融合表,如下图所示。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/74aa1bd4713b75b5b9da4e1d125da0a0..jpg

标签融合表的设计


纵向融合表就是每个对象的每个标签都是一条记录,如一个用户的每种兴趣偏好都是一条记录,我们能识别出他的多少种兴趣偏好是不确定的。


纵向融合表的设计比较灵活,每个对象的标签可多可少,我们也可以自由地不断增加新的标签。然而,每个对象的每个标签都是一条记录,会导致数据量比较大。


横向融合表就是将一个对象的多个标签按照字段放到一个表中。由于多个标签都放到了这一条记录中,因此横向融合表的每个对象一条记录,可以大大降低标签的数据量。


然而,一旦需要增加新的标签,就需要修改表结构,从而增加新字段。这样,不仅需要修改标签生成程序,还要修改标签查询程序,维护成本较高。因此,横向融合表往往应用于那些设计相对固定的属性标签或统计标签。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:

https://github.com/DTStack



0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群