论文部分内容阅读
随着科技的进步特别是整个信息产业的快速发展,我们的社会进入了一个崭新的信息时代。不仅数据采集能力和手段越来越多样化,存储设备技术也迅猛发展,数据采集与存储设备的不断发展带来了大数据的时代。面对大量且繁杂的数据信息,如何从中提取出有价值且便于用户观察的信息是最迫切而重要的问题。显然要解决上述的问题,仅仅采用数据挖掘容易造成得到的信息不易被理解或不一定正确的问题,因而本文研究可视化数据挖掘技术,将数据挖掘和数据可视化技术结合在一起,相辅相成。目前可视化技术与数据挖掘算法的联系是较松散,针对这一现象,本文主要研究内容是如何将数据挖掘算法与可视化技术更好地更高效地融合,并以聚类分析算法为切入点将挖掘过程中的数据可视化、过程可视化及结果可视化进行相应的研究,同时也提供在社交网络、科学研究领域等方面的应用示例。主要研究内容如下:(1)提出了一种基于MASI距离的层次聚类方法,并融合了随机抽样的方法,对层次聚类算法进行了改进并将算法应用到职业网络数据集中实现了结果可视化。采用了随机抽样之后的层次聚类算法的时间复杂度有效地降低了,并且在聚类结果可视化以不同的树形图进行呈现,一目了然。(2)提出基于SOM聚类的可视化模型,并将模型应用到大气温度数据集实现聚类过程及聚类结果的可视化,并提出了基于聚类的兴趣度量和基于近邻的兴趣度量来对属性进行排名,优化了数据挖掘结果的可视化。值得一提的是该应用中的交互可视化设计,它结合了颜色映射、缩放等交互技术让用户更方便地进行观察和分析数据。(3)将平行坐标可视化技术与K-Means算法相结合,在实验过程中通过可视化技术同时对数据和挖掘结果进行可视化,从而提高了算法的效率和准确度。以Iris数据集为测试数据对K-Means算法可视化的有效性进行验证,实验表明相较于传统的K-Means算法,其效率和正确率都有较大的提高。