论文部分内容阅读
技术的革新使科学家能够以不断增加的步速,从试验、仿真及观测中收集数据,数据容量已从近来的十亿字节、千兆字节,达到现在的万亿字节。我们产生数据的能力已经远远超过了我们对它们的研究、分析和理解的能力。数据挖掘(Data Mining,简称DM)技术是由数据库理论、统计学、机器学习理论和神经网络方法等相互结合、交叉渗透而形成的一门交叉性学科,它从大量的数据中寻求正确的、新颖的、具有内在价值的、和最终可解释的模式。但海量科学数据不但数据规模庞大,而且特征复杂、维数高,向传统的数据挖掘技术提出了挑战。因此,开发新的有效的科学数据挖掘技术,提高与大规模、高维度、时变的科学数据之间的交互性,具有十分重要的科研与现实意义。独立分量分析(Independent Component Analysis,简称ICA)是一种新的信号处理技术,近十年来得到了国际学术界的广泛关注和研究,并正迅速成为多维数据分析的一个有力工具。独立分量分析算法根本思想是通过分析多维观测数据间的高阶统计相关性,找出相互独立的隐含信息成份,完成分量间高阶冗余的去除及独立信源的提取。这一特点使得独立分量分析方法在图像特征提取,压缩,模式识别等领域中有着广泛的应用前景。本文把ICA技术引入到大规模数值模拟科学数据挖掘中,有效的减少了大规模科学数据挖掘的计算量和挖掘难度,同时很好的建立起了原始数据与真实物理过程的内在联系。主要有以下几方面的工作:1.描述了科学数据的特点及其基本研究方法,详细介绍了数据挖掘技术和数据挖掘系统的基本理论和知识。2.介绍了独立分量分析的基础知识,包括统计学理论、信息论理论等。3.详细介绍了主分量分析和独立分量分析理论的基本原理,并在最后简单对这两种方法进行了比较。4.介绍了HDF5(Hierarchical Data Format 5,简称HDF5)这种科学数据格式,并将ICA技术应用到数值模拟程序产生的HDF5格式的实验数据的挖掘上,有效的降低科学数据的维度,准确的提取了科学数据所对应物理过程的特征,直观的表达了挖掘结果。5.介绍了电子回旋共振(Electron Cyclotron Resonance,简称ECR)等离子体流,对计算机模拟的ECR实验数据使用ICA技术进行挖掘,得到了与HDF5数据类似的结果,进一步验证了ICA技术能发现科学数据内部有价值的兴趣点、提高分析数据的效率和准确性,表明ICA在大规模科学数据挖掘领域有着良好的应用前景。