数据中台数据中台
申请试用
新闻动态
了解袋鼠云最新动态
新闻动态>大数据的定义?如何进行数据分析?>
大数据的定义?如何进行数据分析?
20211231|文章来源:-

“大数据是指是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

举个例子,现在工作的某网约车数据每天的数据量在PB级,但在用户细分阶段使用的常见方法依旧是算分布、求平均。计算时长里程小的用户差异。数据量确实够大了,求平均数这么一个简单操作也没法很快计算出来。但是这样的计算结果能够起多大的作用。数据量越大,得到的结果反倒越不敢去相信。

数据是拿来干嘛的?

也许我们可以回退一步去思考。大数据同样是数据,数据是拿来干嘛的?老板们要求“数据驱动”,为什么数据能够驱动?为什么我们需要使用数据?数据是我们进行思路验证的工具,日常我们使用数据大体上有两个目的:从数据中找答案和通过数据验证答案。验证答案很容易理解,找答案怎么找,其实就是找规律。这个规律可能是个体的,也可能是群体的。那和规律与验证相反的一面是什么,是不确定性。所以数据其实就是拿来消除不确定性的。

那大数据是什么?大数据不是就解决所有的不确定性么。所有的老板能够知道任何用户的喜好;所有的用户知道任何产品的质量;我能百分之百的确定一件事情。当我要出去玩的时候,我能知道按照我的需求下最佳的出行方式与路线;当我要吃饭,我能知道哪家餐厅不会踩雷;当我看电视的时候,能够百分之百确定这是我想看的。当然,布朗运动不会允许百分之百的确定性出现,所以我们总是向着100%前进。如果我们定义大数据是完美消除不确定性的话,可能我们永远触摸不到它了。

大数据下的数据分析

大数据是一种方式或是思想,更偏商业化的大数据其实更像是一种减少在满足用户需求中的不确定性的思维。大数据好不好我们另说,毕竟国家已经确定严令禁止大数据“杀熟”,但我们站在用户角度思考应该是没太大问题的。

 

夹在中间的就是群体了,如何划分合理的群体就比较关键了。目标是划分出异质性最小的群体,但是这样有可能划分出来的群体数量太多。因此就需要权衡组内方差以及组数的关系了。

 

此刻起,和袋鼠云一起让数据产生更大价值
此刻起,和袋鼠云一起让数据产生更大价值