博客 指标设计|指标的时间特征

指标设计|指标的时间特征

   数栈君   发表于 2023-06-30 17:35  255  0

在指标设计的过程中,时间是一个非常重要的因素。由于多个事实的发生时间之间的异步性,以及事实发生时间与指标计算时间之间的异步性,导致不同的时间统计口径会对指标产生重大的影响。


多个事实发生时间之间的异步性:

一个件事通常在一件事发生后一段时间,才会发生,或者才会被观测到。例如订单退款必须在下单支付之后才能发生;退房必须在入住酒店之后才能发生,且存在着一定的时间差。

事实发生与指标计算之间的异步性:

一个事实发生与这个事实被计算(为指标)之间通常存在着时间差。
例如,一个消费者1分钟内在APP上(生产环境下)下了20笔订单。但可能在1个小时后,才能在后台数据库中查询到这20笔增量的订单记录。这种情况的发生可能是由于任务调度的设置导致的,也可能是由于技术能力的限制导致的。

再举个例子,应该几个月前,知乎在创作中心中统计的阅读量还是日频刷新的。现在也仅仅做到了小时刷新。

这样的刷新频次可能在“创作中心”的业务场景下是可接受的,但在很多其他的业务场景下(例如短视频推荐),是不可接受的。为了解决以上业务场景的问题,我们就需要采取流计算的技术,来提高数据生产的时效性。

事实间的“异步性”和事实与计算间的“异步性”,会影响指标反馈信息的“及时性”与对事实抽象的“准确性”。

总的来说,我们希望指标在保证一定准确性的前提下,越及时越好。为了达成这个目标,我们需要慎重的考虑两个时间特征:“T+n”和“时间切片 v.s. 关联绑定”
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2c3415c37d1bd40e03b7a28b0561fcc1..jpg
图5:“T+n”与“时间切片统计”、“关联绑定统计”的示意说明

"T+n":
T+n中的n应该设置为什么更为合适,是1天、3天还是5天;1小时、2小时还是5分钟。

举个例子,保险公司要衡量保单的品质,即有没有卖给消费者他们所需要的产品。那么用什么指标来衡量更为合适呢?

大家可能会想到“退保率”。但是退保率该如何计算呢?严格来说,一笔保单在其合同约定的期限内的任意一天都是可以退保的。所以,从完全准确的角度出发,如果某个保险产品的合同期为20年,那么应该统计20年零1天前所有保单的退款率,即T+20y。

但是,这显然是不现实的。因为“及时性”太差了,完全不可运营。

因此,我们要设计一个更恰当的时间特征n。假设,现在我们知道保险的犹豫期大约是10~15天,也许在平衡“及时性”与“准确性”之后,退款率的设计就会是“T+15d”计算。

“时间切片 v.s. 关联绑定”:

我们在计算相对指标的时候,应该以什么样的方式进行对比?举个例子,运营常用的流程分析,AAARR(获取、激活、留存、收益、传播)。

通常使用这套方法去做运营分析,就要计算激活率、留存率、消费转化率等等一系列的指标。如果我们要计算这类指标就存在一个选择,是使用时间切片的方式去计算激活率吗?即:今日的激活率 = 今天获取的用户量 / 今天激活的用户量。

但是思考一下:今天激活的用户中,有没有昨天获取的用户呢?有没有前天获取的用户呢?有没有去年获取的用户呢?显然是有的。

而我们在使用切片数据时,就可能导致一个现象,今天的激活率高,可能仅仅是因为今天获取的用户数少,而今天激活的用户都是之前积累下来的。也就是说,有可能转化率高,是件坏事。

那么,是不是为了准确性,就用关联绑定的方式去设计指标呢?即,计算激活率的时候,应该圈定某天获取的那些用户,看这些用户中有多少激活了。

例如,今天计算“T+7d ”前获取的用户中的激活率是多少。如果采取这样的方式,我们就回到了问题1:“n”应该如何选择。

综上所述,当我们遇到一个量化的问题,就从上述的指标类型中选取一种设计方法,完成指标的设计工作。接下来我们要做的,就是去衡量这个设计的好坏。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!


《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群