一、什么是数据挖掘
在假设检验数据挖掘中,估计和理解是指估计和理解定量的数字,例如在什么地区销售什么样的产品,销售多少。分类提炼是指将各个地区畅销的产品和产品类别进行提炼,分类整理后进行分析。这两个是为了正确识别当前的情况,但预测 不是当前的情况,而是通过创建某种模型来预测未来的销量和畅销产品。
另一方面,知识启发式数据挖掘关联规则制定是探索性地同时知道买了什么和买了什么。 聚类是指根据购买趋势等对相似的人进行分组,并尝试对每个组实施最佳措施。由于这两种方法没有目标变量,所以它们对应于多元分析中的汇总方法,但也不是没有目标的。
聚类和分类的区别在于分组依据是基于预定义的属性、购买金额等,还是分组基于事后定义的探索性依据。分位分析、RFM 分析等是对客户进行分组的类似方法,但基于预定义的标准,例如购买数量和频率。在聚类分析中,由于某种原因,分组是任意的,并且在事后进行分析以了解组的特征,因此方法完全不同。
文本挖掘 是一种具有代表性的了解群体特征的数据挖掘方法,用于假设检验和知识发现。文本挖掘可用于定性和定量地了解有目的所说的内容,或探索性地发现所说的内容。
问题 | 方法 |
在哪里销售多少产品? | 估计,理解 |
您应该如何对您的产品进行分类? | 分类、提取 |
未来我们应该重点关注哪些重点产品? | 分类、提取 |
这个产品未来能卖多少钱? | 未来预测 |
哪些产品与哪些产品一起购买? | 制定关联规则 |
新产品是如何收到的? | 了解群体的特征 |
问题 | 方法 |
该客户购买什么样的产品? | 估计,理解 |
谁是好客户,谁濒临倒戈? | 分类、提取 |
未来哪些客户会购买该产品? | 未来预测 |
应该为哪个客户群推荐哪种产品? | 聚类 |
按性别、年龄和地区划分,客户是什么样的人? | 猜测群体的特征 |
数据挖掘的一个特点是处理的数据量大于统计分析处理的数据量,但与统计分析处理的数据还有其他决定性的差异。统计分析所用的数据,不仅干净,浪费少,而且和一个经过合理规划、树木密布、果实几乎可以肯定成熟的果园一样。
比如在调查数据中,数百个问题的答案数据几乎全部被量表分成5级评分并进行是否的1/0数据填充,NULL(无值)的数据。
数据挖掘处理的数据是数以万计的产品中购买了几种产品的数百万客户的数据毫不夸张地说大部分数据为NULL。
当数据多数被NULL充满变得稀疏时,称为稀疏数据,构建数据矩阵被称为稀疏矩阵。在数据挖掘中,数据的这种稀疏性是一个大问题。有必要从产品分析和客户分析两方面来解决稀疏问题。
在产品分析中,按SKU(Stock Keeping Unit)分析数以万计的产品,无非是造成数据稀疏的因素。为此品类分析在CTB(Customer to Business)分析中显得尤为重要。另外评价客户相似度时的相似度定义可能无法通过传统的聚类分析处理,因此需要对其进行设计。
大数据这个词像流行语一样泛滥。那么大数据和数据挖掘有什么关系呢?在此之前,我想回顾一下什么是大数据。大数据商业被定义为利用大数据解决社会和经济问题的商业并提高或支持业务的附加值。
当数据具备 3V 和 4V 有时被视为大数据的特征。
数据清洗是指从获取的数据中去除垃圾数据(噪声)并提取要分析的数据。
特定产品的抽取,从产品中抽取某特定需求的产品或可能销售的产品。
特定客户的抽取,从客户中抽取购买了特定产品的客户、优秀客户等。
产品排序按销售顺序对产品进行排序(排名),按销售可能性对产品进行排序(预测)。
客户排序按购买次数最多的顺序对客户进行排序,按最近购买的顺序对客户进行排序。
客户分组按属性区分客户。
产品分组,将产品分组。
客户分组,按属性区分客户。
了解分组 产品的特点计算每个产品类别的月销量和平均单价等组代表值。
了解分组客户的特征 了解按性别和年龄划分的消费金额(交叉表)。
了解产品 A 的总销量与温度之间的关系 ⇒ 预测在任何给定温度下它的销量。
了解分组客户购买的产品。
作为问卷数据基础的交叉制表,是一种将客户按属性或某种特征分组,并检查每个组数据的属性的制表方法。CRM 中经常出现的 RFM分析,是一种将客户按照频繁购买、频繁购买、大额购买的顺序进行排序、组合、分组的分析。分析的变种有很多。
按区域和店铺类型进行需求预测可以说是通过按区域和店铺对销售额进行分组,并了解销售数据、时间数据和各种解释变量数据之间的关系进行预测的模型。各种回归分析、决策树、神经网络等都用于找出关系。
了解这些分析方法非常重要,但数据挖掘解决的挑战对于解决中提到的各种营销问题的数据挖掘的类型,应该使用什么样的统计方法,才能知道应该结合哪些基础处理,应该使用什么样的提取、排序、关系。一点也不为过要说能够基于这种理解制定分析策略是非常重要的,这就是数据分析的本质。
本文系转载,版权归原作者所有,
转载自公众号 数据派THU,如若侵权请联系我们进行删除!
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs
《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack