群组是数据挖掘中最重要的概念之一,群组分析是指将一组数据按照一定的规则进行聚类分组,然后对每个群组的特征值进行分析。通过这种方法可以对数据的分布、结构、变化趋势等有更加深入的了解。在实际应用中,通常是将多张图片或多个文件按不同的属性划分成若干个群组(例如:年龄、性别),然后分别对各群的特征值进行分析。
关键词:数据挖掘;聚类;分类;特征选择器;
决策树聚类的方法 :在实际的应用场景下,聚类的方法有很多。根据分类方法的原理不同可分为基于距离的聚类和基于相似度的聚类算法两种类型。
基于距离的聚类算法
距离是一种衡量事物之间相似程度的尺度,它表示了两个对象之间的差异程度和相互关系的一种度量形式 。距离可以反映对象的性质以及彼此之间的关系.如果两个对象之间的距离越远则越不相关或者关联性越小 ,而当两个对象之间的距离越近时它们就越相似或者相关性越大 .所以利用这种度量方式可以将一个群体划分为不同的子群体.
基于特征的相似度计算
根据给定的特征向量计算出各个子群体的平均数称为该特征的相关系数 . 相关系的数值越大代表它们的关联性越高. 相关系数是描述一个群体内部结构的重要指标之一.