1、基本描述统计
基本描述统计分析包括频数分析、描述分析、分类汇总;是对收集的数据进行基本的说明。
频数分析一般使用频数、百分比、饼图等形式进行描述。
描述分析常见的指标有平均值、标准差、最大值、最小值、中位数等;更深入的描述指标包括百分位数、峰度、偏度、变异系数等。
分类汇总用于研究不同分类时的汇总情况,输出的指标为汇总结果。比如不同区域分类项,销售额(汇总项)的差异情况。
下方链接均会跳转至SPSSAU帮助手册:
2、差异关系研究
常见的差异关系研究方法包括方差分析、t检验、卡方检验、非参数检验。
(1)方差分析
方差分析用于进行定类数据与定量数据之间的差异关系研究;按照研究内容和数据类型等不同,可分为以下几类:
下方链接均会跳转至SPSSAU帮助手册:
视频教学——几类方差分析方法对比说明:
(2)t检验
t检验,用于分析定类数据与定量数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:
下方链接均会跳转至SPSSAU帮助手册:
视频教学——t检验的类型及区分:
(3)卡方检验
卡方检验,用于分析定类数据与定类数据之间的差异情况,按照研究内容和数据类型等不同,可分为以下几类:
下方链接均会跳转至SPSSAU帮助手册:
视频教学——几类卡方检验的对比说明:
(4)非参数检验
前面讲的常见的数据差异性分析方法:例如方差分析、t检验都属于参数检验的范围。参数检验一般需要数据满足正态性、方差齐性。与参数检验相对的是非参数检验,非参数检验不对总体的分布形态做假定,所以当数据不正态或方差不齐时,可使用非参数检验进行差异性研究。
参数检验对应非参数秩和检验如下:
下方链接均会跳转至SPSSAU帮助手册:
单样本Wilcoxon秩和检验3、影响关系研究
影响关系研究包括进行相关分析、回归分析、logit回归分析三大类。
(1)相关分析
相关分析可分为以下三类:
下方链接均会跳转至SPSSAU帮助手册:
(2)回归分析
回归分析主要进行影响关系研究,可以细分为二十几种,由于篇幅有限,这里仅介绍比较常用的回归分析方法,感兴趣同学可以登陆SPSSAU进行学习。
下方链接均会跳转至SPSSAU帮助手册:
(3)logit回归分析
当研究X对Y的影响时,如果因变量Y为定类数据,则应该使用logit回归分析。
下方链接均会跳转至SPSSAU帮助手册:
视频教学——3种logit回归分析对比及剖析
4、信息浓缩方法
信息浓缩常见方法为因子分析、主成分分析。
因子分析和主成分分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。如果希望进行将指标命名,SPSSAU建议使用因子分析。原因在于因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名。
下方链接均会跳转至SPSSAU帮助手册:
5、聚类分析方法
聚类分析(K-means、K-modes、K-prototype)
6、信度分析
下方链接均会跳转至SPSSAU帮助手册:
11、一致性研究方法
一致性检验的目的在于比较不同方法得到的结果是否具有一致性。检验一致性的方法有很多比如:Kappa检验、ICC组内相关系数、Kendall W协调系数等。
下方链接均会跳转至SPSSAU帮助手册:
12、可视化分析方法
常用的可视化分析方法如下:
免责申明:
本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!
《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu
《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack