博客指标设计｜指标设计的3个过程

指标设计｜指标设计的3个过程

数栈君发表于 2023-06-30 17:35 1803 0

指标设计的过程与分类

结合统计与数据治理视角，我们可以将指标的设计过程分为三个步骤：抽象、加工、限定。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c91c54f1420594f719f2b91357f1f1bc..jpg

图3：指标的生成过程

数据经过初步抽象，形成原子指标，即绝对数指标。例如：保费、客户数、用户量。

原子指标经过三种加工方式，形成衍生指标。例如：升学率、平均客单价、沪深300。这3种加工方式分别为：进行对比、计算统计量、指数设计（结合对比和统计计算）。

当我们对原子指标和衍生指标，进行维度限定的时候，就形成了派生指标。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/91d5b78b346b16c49a4d4a3b5c3f5892..jpg

图4：指标类型

这里对原子指标、相对指标以及统计量指标的使用做一个简单的介绍：

原子指标记录事实：根据指标的定义，指标是一个被定义的数值，用来对事实进行量化抽象。这个量化过程的起点是传感器、数字化等；然后是日志、记录、标签等；进入指标汇总层面的第一步就是原子指标。我们通过原子指标来记录事实，例如访问的次数、出行的距离、消费的金额等等。所以当我们需要记录一些基本事实的时候，我们设计一个原子指标来量化它们。

相对指标用于评价：我们通过原子指标，记录下了一堆的事实。紧接着，我们要做的就是对这些事实进行评价。常说“没有比较就没有伤害。”为什么没有伤害呢？因为没有比较，就很难做评价，进而我们也不知道自己是好是坏。所以当我们需要评价一些事实的时候，我们设计一个相对指标来量化它们。

当我们要评价一件事情的发展趋势的时候，我们可以用动态相对数；例如：同比、环比。
当我们要评价一件事对整体的影响的时候，我们可以用比例相对数；例如：市场占有率。
当我们要评价同一个事物在不同维度下的差异程度的时候，我们可以用比较相对数；例如：TGI、男女比例。
当我们要评价两个不同事物之间的关联的时候，我们可以用强度相对数；例如：投诉发起强度、退款发起强度。
当我们要评价计划的完成情况的时候，我们可以用完成相对数，例如：销售额完成进度。

统计数指标提炼信息：有时候，我们会有非常多的记录或指标。它们蕴含着非常多的信息，但是价值的密度却很有限。这个时候就可用通过一些统计的方式，提炼其中的信息价值。例如我们有数以千万记的用户的月均消费金额，这时候可以通过统计分位置的方式对我们客户整体的消费能力做一个刻画。

指标的尺度特性

不同的指标，还会具有不同的尺度特性。根据可比程度的不同，我们可以将指标划分为4个测量尺度：定比尺度、定距离尺度、定序尺度和名义尺度。

	名义尺度	定序尺度	定距尺度	定比尺度
类别区别	√	√	√	√
次序区别		√	√	√
距离区别			√	√
比例区别				√

指标尺度的特性是我们必须要了解清楚的，因为低尺度的指标不能使用高尺度的数据运算进行处理。这里举2个反例说明以下，如果没有弄清楚指标的尺度特性会导致什么问题：

定距尺度不能直接做乘除：
例如温度就是一个典型定距尺度，“20度有10度的2倍那么热，是一个非常令人困惑的表述。”
定比尺度具有绝对起点“0点”；而定距尺度没有绝对起点，定距尺度的“0点”是人工计算出来的。换言之，定比尺度的指标，本身和零点的差是有意义的。但，定距尺度，之间的差才是有意义的。这就导致了，定比尺度可以直接和自然数做乘除法，但定距尺度不可以。

定序尺度不能直接做加减：
满意度评分就是一个典型的定序尺度。如果消费者给A酒店的评分是5分，B酒店的评分是3分，C酒店的评分是1分。很可能这并不意味着，A比B酒店好的程度与B酒店比A酒店好的程度相等。实际情况可能是，大多数的酒店都在4分左右，而5分是非常棒的；1、2、3分的酒店都乏善可陈，甚至体验很差。
因为定距尺度之间的距离是精确定义了的，而定序尺度没有。所以定序尺度只能比较大小，而不能够进行直接的加减。
虽然很多场景下，我们都会用平均满意度来衡量客户的满意情况。但我们会发现这样的使用方法，存在一些问题，例如说没有区分度等。这些问题中，有一部分就是由于“定序尺度”的特性带来的。

指标的时间特征

在指标设计的过程中，时间是一个非常重要的因素。由于多个事实的发生时间之间的异步性，以及事实发生时间与指标计算时间之间的异步性，导致不同的时间统计口径会对指标产生重大的影响。

多个事实发生时间之间的异步性：

一个件事通常在一件事发生后一段时间，才会发生，或者才会被观测到。例如订单退款必须在下单支付之后才能发生；退房必须在入住酒店之后才能发生，且存在着一定的时间差。

事实发生与指标计算之间的异步性：

一个事实发生与这个事实被计算（为指标）之间通常存在着时间差。

例如，一个消费者1分钟内在APP上（生产环境下）下了20笔订单。但可能在1个小时后，才能在后台数据库中查询到这20笔增量的订单记录。这种情况的发生可能是由于任务调度的设置导致的，也可能是由于技术能力的限制导致的。

再举个例子，应该几个月前，知乎在创作中心中统计的阅读量还是日频刷新的。现在也仅仅做到了小时刷新。

这样的刷新频次可能在“创作中心”的业务场景下是可接受的，但在很多其他的业务场景下（例如短视频推荐），是不可接受的。为了解决以上业务场景的问题，我们就需要采取流计算的技术，来提高数据生产的时效性。

事实间的“异步性”和事实与计算间的“异步性”，会影响指标反馈信息的“及时性”与对事实抽象的“准确性”。

总的来说，我们希望指标在保证一定准确性的前提下，越及时越好。为了达成这个目标，我们需要慎重的考虑两个时间特征：“T+n”和“时间切片 v.s. 关联绑定”

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8b4e475e9df5f657cbcedec7f3ba506b..jpg

图5：“T+n”与“时间切片统计”、“关联绑定统计”的示意说明

"T+n"：

T+n中的n应该设置为什么更为合适，是1天、3天还是5天；1小时、2小时还是5分钟。

举个例子，保险公司要衡量保单的品质，即有没有卖给消费者他们所需要的产品。那么用什么指标来衡量更为合适呢？

大家可能会想到“退保率”。但是退保率该如何计算呢？严格来说，一笔保单在其合同约定的期限内的任意一天都是可以退保的。所以，从完全准确的角度出发，如果某个保险产品的合同期为20年，那么应该统计20年零1天前所有保单的退款率，即T+20y。

但是，这显然是不现实的。因为“及时性”太差了，完全不可运营。

因此，我们要设计一个更恰当的时间特征n。假设，现在我们知道保险的犹豫期大约是10~15天，也许在平衡“及时性”与“准确性”之后，退款率的设计就会是“T+15d”计算。

“时间切片 v.s. 关联绑定”：

我们在计算相对指标的时候，应该以什么样的方式进行对比？举个例子，运营常用的流程分析，AAARR（获取、激活、留存、收益、传播）。

通常使用这套方法去做运营分析，就要计算激活率、留存率、消费转化率等等一系列的指标。如果我们要计算这类指标就存在一个选择，是使用时间切片的方式去计算激活率吗？即：今日的激活率 = 今天获取的用户量 / 今天激活的用户量。

但是思考一下：今天激活的用户中，有没有昨天获取的用户呢？有没有前天获取的用户呢？有没有去年获取的用户呢？显然是有的。

而我们在使用切片数据时，就可能导致一个现象，今天的激活率高，可能仅仅是因为今天获取的用户数少，而今天激活的用户都是之前积累下来的。也就是说，有可能转化率高，是件坏事。

那么，是不是为了准确性，就用关联绑定的方式去设计指标呢？即，计算激活率的时候，应该圈定某天获取的那些用户，看这些用户中有多少激活了。

例如，今天计算“T+7d ”前获取的用户中的激活率是多少。如果采取这样的方式，我们就回到了问题1：“n”应该如何选择。

综上所述，当我们遇到一个量化的问题，就从上述的指标类型中选取一种设计方法，完成指标的设计工作。接下来我们要做的，就是去衡量这个设计的好坏。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack