「数据可视化」多维数据可视化技术研究综述,伴随着大数据技术、信息内容可视化技术的迅猛发展,数据可视化的定义已经持续的演化发展趋势。在对目前科学研究材料开展剖析的基本上,整理了世界各国多维数据可视化行业的完善技术,并从运用视角对其开展了点评。另外点评了近年来世界各国专家学者在多维可视化技术层面的科学研究与运用成效,并未来展望了多维可视化技术的将来研究内容和挑戰。
前言
「数据可视化」多维数据可视化技术研究综述,近些年,人们造成与获得数据的工作能力愈来愈强,存储的信息内容总产量也日益巨大。为了更好地让这种数据得到形象化展现,人们对数据可视化技术的要求日益提升。数据可视化技术是跨行业的技术,被广泛运用于商务智能剖析、数据剖析、数据发掘、统计分析等行业。它也是一门跨过电子计算机图象处理、人机交互技术、统计学、社会心理学的综合性课程,关键科学研究怎样运用人的感知能力以接近人们当然认知的图形界面呈现方法,对数据交互进行可视化表述,以提高人的认知能力,展现数据中暗含的信息内容,挖掘数据中所包括的规律性[1]。数据可视化现阶段有3个支系:①科学研究可视化,关键朝向社会科学,如物理学、有机化学、气候、航天航空等,对其数据和实体模型开展表述、实际操作与解决,找寻在其中的科学研究规律性和出现异常等;②信息内容可视化,关键解决非结构型、非几何图形的抽象性数据,如金融投资、社交媒体和文字日志数据等,关键关心怎样在比较有限的呈现室内空间中,以形象化合理的方法传递很多的抽象性信息内容;③可视化剖析,它是以可视性互动页面为研究对象的剖析逻辑推理科学研究,综合性了图象处理、数据发掘剖析和人机交互技术等技术。
多维数据可视化是信息内容可视化下的子研究领域,是将多维的初始数据或解决后的数据开展形象化展现的技术。现阶段,多维数据可视化技术被广泛运用于各行业的商务智能剖析与輔助管理决策中。文中将梳理较为几类流行的多维数据可视化技术,剖析一些根据这种可视化技术的技术迭代更新与运用案例,并从运用视角点评这种多维数据可视化技术。人们的形象化感知能力受制于真实的世界,无法立即了解超出三维的多维抽象性事情,多维数据可视化技术便是科学研究如何把多维数据根据各种各样方式展现使之变成人们便于了解的二维或三维图像处理。到迄今为止,世界各国专家学者在这些方面早已明确提出了许多 基本性与迭代更新的多维可视化技术,依据其可视化基本原理不一样,可将其大概分为根据几何图形的技术、根据特征提取映射的技术、根据层级的技术、根据清晰度的技术、根据标志的技术和根据图型的技术等[3]。
1根据几何图形的技术
平行面平面坐标技术[4]是根据几何图形的多维数据可视化技术中最具象征性的一个。其基础观念是将多维数据的N个层面属性以定距垂直的N条平行面纵坐标的方式来主要表现,每条平行面中心线相匹配于一个属性维。多维数据的各维属性值在N条纵坐标上面能寻找相匹配的点,将这N个点组合成一条曲线,就意味着了一个多维数据点。这类方式适用数据量较小但维数较多的数据集,在离群点的发掘上面有非常好的主要表现,一旦数据量大到一定水平,曲线相叠难题就相当严重,另外在维数很大时,无法辨别各维属性间的相关分析。而且因为人的眼睛的可视性范畴与最少辨别工作能力,平行面平面坐标技术事实上具备维数限制。平行面平面坐标可视化技术还演变发展趋势出了环形平行面平面坐标技术[5]、Radvi[6]及其星形平面坐标技术[7]等,填补了平行面平面坐标法存在的问题,进一步提高了可视化品质。可是受制于以好几条中心线主要表现多维度空间的基本概念,其在大数据可视化运用中主要表现一般。
Chambers明确提出的散点图观念适用二维或三维数据的可视化,能挖掘出2个自变量中间的关联与联络。而在多维数据可视化行业,散点图观念衍化出了散点图引流矩阵。其基础观念是将多维数据的各维自变量两组组成做为引流矩阵中的一个原素,在每一个原素中绘图相对自变量的散点图,为此对各层面自变量开展两组较为,从而获得暗含的信息内容。这类方式的一大优势取决于不容易遭受数据集尺寸的限定,并且因为是以两组较为中得到信息内容,因此并不一定规定另外将全部原素展现在视区域内,大幅度降低了因维数提升而造成的可视化难度系数。可是因为其原素一直在2个层面中间进行,因此在更多层次关联、联络上的发掘稍显皮软。从而衍化出的技术包含Hyperslice方式[8]与Hyperbox[9],前面一种应用投射的观念,用N-2维的切成片来取代散点图引流矩阵原素,在表明实际效果上主要表现突显;后面一种则用平行四边形替代方形做为图型原素,尽管有益于调整原素的方位与尺寸,突显关键自变量,但因人为因素挑选各原素的尺寸与方位,在暗含关联发掘上主要表现不佳。除开所述两类技术外,根据几何图形的多维可视化技术还包含Andrews曲线图法、StarCoordinate法等。根据几何图形的多维可视化技术在小总数的多维数据集可视化中运用较广且最后图象比较形象化便于了解,但即便是对大数据接受度最好是的散点图引流矩阵技术也在所难免数据点相叠的难题。
2根据层级的技术和朝向清晰度的技术
根据层级的多维数据可视化技术的基础观念是将高维空间区划为好几个子空间,并对这种子空间以结构分析开展机构,并融合展现在一个图型上。比如嵌入平面坐标法[10],其核心内容是把一个平面坐标嵌入在另一个平面坐标中,在里层平面坐标中可视化数据集。数据集点依据其在里层平面坐标中的部位,有一组唯一明确的表层平面坐标座标,此座标即主要表现更高维空间数的值。这类方式适用持续的数据集,可是一旦维数超出一定水平,很容易造成视觉效果错乱且难以理解各层座标间的内在联系。从可读性的视角而言,它是一种门坎较高的多维数据可视化技术。
与根据层级的技术相近,朝向清晰度的多维可视化技术的基础观念是依据多维数据的维数,将高维空间区划成好几个子视图。不一样的是它用每一个视图对应当多维数据集的一个层面,并把每一个像素数做为一个多维数据点,在不一样的视图中依据不一样的属性值授予不一样的色调。像素数的部位排列依据要求的不一样,能够依照某一属性次序从左往右一行行排序或从上向下逐列排序,还可以依据数据项与某一属性的关联系数从管理中心散发排序,比如环形按段技术,将多维数据各属性数据以清晰度为企业在不一样扇型地区内依照次序从圆心点向圆上排序。这种扇型拼生成的一个圆,表明全部高维空间。环形按段技术兼具了像素数与属性中间的相关分析次序和每个层面中间的关联,对一定维数的大数据集的可视化实际效果极好,在归类与多维属性相关分析的发掘上面有不错运用。
3根据标志的技术和根据图型的技术
根据标志的多维数据可视化技术的基础观念是用具备好几个便于鉴别的特点的标志来表述多层次信息内容,一组标志的每一个特点都能够用于表明多维信息内容的一维。常见的该类技术有Chernoff面法[11]和星绘法[12]。该类技术适用维数很少的多维数据集,結果形象化,在具备尤其层面属性时有特别好的主要表现。其缺陷取决于相关度不足高。
在根据标志的可视化技术中,每一个标志(京剧脸谱、星状图)全是一个多维数据点,而根据图型的技术通常可视化展现获得一张详细的图型,图型中的点与线的种类、尺寸、色调等都能够用于表明数据与数据中间的关联。该类技术有多曲线图法和SurveyPlot等。这类技术可用面较广,可视化結果通常颜色丰富多彩,便于了解。比如有专家学者根据根据图型的可视化技术,将轿车行车的多维数据(包含時间、经度纬度、行车速率、行车方位等)可视化展现在一个平面坐标系中[13]。如图所示1是轿车行车数据可视化的基本結果,图2是应用五颜六色映射后获得的前4圈轿车行车数据的可视化結果。
4根据特征提取映射的技术
所述方式全是将多维数据集的所有数据开展详细的可视化展现,根据特征提取映射的技术与所述不一样,其基础观念是将多维数据当作是同一维度空间中的点,其座标依据相对的层面属性值来明确,再将该维度空间中的点映射到低维可视性室内空间中,另外尽量维持数据点间的某类关联不会改变[14]。这类技术包含主成分分析法、多维限度转换、生态系统理论映射、定距映射、部分线形嵌入等。
这类技术根据特征提取映射,有选择省去一部分层面数据,最后在二、三维空间中尽量不损害过多信息内容地可视化展现数据集。而特征提取映射能够分为线形(如主成分分析法)与离散系统特征提取技术(如生态系统理论映射、定距映射)两类,基础完成方式有数据预处理与svm算法[15]。现阶段,该技术可分成线形(如主成分分析法)与离散系统特征提取技术(如生态系统理论映射、定距映射)两类。在其中数据预处理是根据挑选目前层面属性中有工作能力意味着其他层面属性的1~3个层面属性(称之为优点维),来完成特征提取映射。而svm算法则适用沒有显著优点维的数据集,对数据集的诸多层面属性开展资产重组来搭建优点维,并在这个基础上完成特征提取映射。
该技术以其能在低维空间优异地展现多维数据集的总体构造与遍布,而且适用进一步的数据发掘,因此获得了广泛运用。近些年,有很多专家学者对这种技术开展了改善与运用,比如用进化算法对生态系统理论映射互联网开展改善[16],应用生态系统理论映射与聚类算法融合对高维空间电力网数据开展特征提取[17],改善了主成分分析法法并用以多因子地质学风险评价中[18],明确提出了根据定距映射离散系统流形学习与权重计算KNN支持向量机紧密结合的转动机械设备故障检测方式[19],这些。图3为专家学者在参考文献[19]中,试着用ISOMAP特征提取方式获得流形构造并较为挑选出最好的特征提取方式。
5总结
「数据可视化」多维数据可视化技术研究综述,多维数据可视化从二十世纪六十年代发展趋势迄今,早已累积了很多的科研成果与技术构思,从根据几何图形的多维数据可视化技术到根据特征提取映射的可视化技术,人们一直在为提升受制于真实的世界的思维能力而勤奋,可是绝大多数专家学者的可视化技术科学研究依然习惯将多维数据放到二维空间开展展现。坚信伴随着虚拟现实技术技术的飞速发展,该难题将获得处理。另外,伴随着数据发掘门坎的持续减少,再加上商务智能、数