博客 干货分享,探究四种常见的数据分析类型

干货分享,探究四种常见的数据分析类型

   数栈君   发表于 2023-05-29 15:54  269  0

在刘慈欣的科幻小说《三体》中,智子是一种超级人工智能,其能力和智慧远超人类。故事中三体人通过智子 锁死了人类科技。

其锁死人类科技的核心就是在微观层面干扰人类科学实结果,从而使人类科学家不能正确地开展数据分析,无法对物质深层的结构进行有效探索,失去了理解世界的能力,从而无法产生突破性的科学发展。

由此可见数据分析的重要性。这篇文章,我们就来聊一聊数据分析的四种类型,了解一下如何利用数据来帮助我们更好地理解世界。

第一类:描述型数据分析

我们都知道,所谓的数据是对事实的描述,比如说你的身高、体重、籍贯等等。对这些数据的描述本身也是一种分析。

举一个例子:最近我在看房子,每天会关注成都市二手房的成交量,比如说{2023年2月27日成都二手房成交了465套}

这就是描述型分析,如果你写过实证分析相关的论文,这个就是对数据的描述,比如说我上面提到的毕业论文,在完成数据处理后会做一个描述型统计分析:

2012年,国有企业控制下的上市公司数量达到了1176家,占比超过50%,到2016年,这个数字下降到了1015家,占比降至不到50%。与此同时,民营企业控制下的上市公司数量在同期内从978家增加到了1183家……

第二类:探索性数据分析

探索性数据分析,有个英文名叫Exploratory Data Analysis,简称EDA。我们所说的一般意义上的数据分析就是指探索性分析。

所谓的探索性分析就是提出一个问题,然后通过数据的特征、规律、分布和异常等情况,给出问题的答案,辅助决策。

这也是一般企业里数据分析师的核心工作:比如说探究什么用户注册数变少了?为什么公司的GMV下滑了?等用户运营或者产品运营层面的问题。

讲一个故事:

2021年我在一家公司金融小贷部门做数据产品经理,主要做贷前的反欺诈产品。

有一天运营部门的同事突然发现,当天下午的3点-6点,申请贷款的用户暴增,而且比过往的每天平均客户数多了2倍多,而且还在持续增长,于是立刻汇报给了部门领导.

部门领导就给数据分析的同事抛出来一个问题:是什么原因导致用户数骤增?

数据分析的同学接到任务,立刻着手进行数据分析,拉出当天3~6点申请贷款的客户的全部信息:性别、年龄、籍贯、手机号、婚姻状态,驾照信息、申请地点等等……

经过几个小时的分析,最终得出结论:这是一起无组织的集体撸贷行为。

原因也很简单:这些客户分散在全国各地,申请时间高度集中,而且申请的贷款流程中约50%的人上传的都是同一个驾照信息。

作为一名优秀的数据分析师,并不会甘于只做探索性分析,而是会给出指导和改进的建议。

比如说我上面讲的的故事里,我们部门在发现了这个问题后,给业务部门提出了优化建议:建议在贷款流程中加入驾照身份核验,必须要身份信息和驾照信息一致才能申请贷款。

因为有数据支撑,业务部门也很快采纳了我们的建议。

第三类:指导性数据分析

指导性分析,英文名叫Confirmatory Data Analysis,简称CDA。

别被它的名字给误导了,基本大多数研究生和博士生论文都是指导性分析,也就是所谓的实证分析。

它要求你在做数据分析前,先明确研究问题,并提出假设,然后通过严格的统计方法和模型验证,对数据进行检验和分析,以验证研究假设的有效性和可靠性。

和探索性分析不同,指导性分析的目标是验证数据分析中的假设和研究结论是否正确,它需要做出明确的假设,并通过统计模型和验证方法来检验假设的有效性,以确保分析结果的可靠性。

CDA通常是在EDA之后进行,当我们已经了解数据并发现有趣的关系时,需要进行进一步的验证和检验。

CDA在科学研究和数据分析中非常重要,因为它可以帮助我们确定研究结论的有效性,并排除偶然性和误差的影响。

同时,CDA也可以帮助我们发现数据中的异常和离群值,以及其他可能影响分析结论的因素。

第四类:预测性数据分析

预测性分析,又叫Predictive Analytics。这个概念有点晦涩,但却早已飞入寻常百姓家。

预测分析是指通过对历史数据和趋势的分析和建模,预测未来事件或行为的发生概率或趋势。

它的目标是利用现有的数据建立预测模型,它可以帮助决策者更好地理解未来发展趋势和可能发生的事件,以便制定更加科学的决策和策略或者让用户更加上瘾。

看到这个,你是不是想起了抖音、快手、微信视频号。没错,这类短视频工具无一例外地使用了预测性数据分析,它可以将你的注意力数据作为输入,输出你更为感兴趣的视频 ,让你越刷越想刷,越刷越停不下来。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d060660ea75e925a7a0cdd5cb60b59b7..jpg

抖音2小时,人间五分钟。就是这么来的。

预测性分析有较高的技术门槛,它需要完整的数据清洗、特征选择、模型选择和评估等步骤。

在建立预测模型时,我们需要选择合适的特征和算法,并对模型进行训练和优化,以达到最佳的预测效果。

这些从业人员也一般称之为算法工程师,而不再是数据分析师了。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu


《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1


想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群