独立分量分析及其在科学数据挖掘中的应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:psetpsetc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
技术的革新使科学家能够以不断增加的步速,从试验、仿真及观测中收集数据,数据容量已从近来的十亿字节、千兆字节,达到现在的万亿字节。我们产生数据的能力已经远远超过了我们对它们的研究、分析和理解的能力。数据挖掘(Data Mining,简称DM)技术是由数据库理论、统计学、机器学习理论和神经网络方法等相互结合、交叉渗透而形成的一门交叉性学科,它从大量的数据中寻求正确的、新颖的、具有内在价值的、和最终可解释的模式。但海量科学数据不但数据规模庞大,而且特征复杂、维数高,向传统的数据挖掘技术提出了挑战。因此,开发新的有效的科学数据挖掘技术,提高与大规模、高维度、时变的科学数据之间的交互性,具有十分重要的科研与现实意义。独立分量分析(Independent Component Analysis,简称ICA)是一种新的信号处理技术,近十年来得到了国际学术界的广泛关注和研究,并正迅速成为多维数据分析的一个有力工具。独立分量分析算法根本思想是通过分析多维观测数据间的高阶统计相关性,找出相互独立的隐含信息成份,完成分量间高阶冗余的去除及独立信源的提取。这一特点使得独立分量分析方法在图像特征提取,压缩,模式识别等领域中有着广泛的应用前景。本文把ICA技术引入到大规模数值模拟科学数据挖掘中,有效的减少了大规模科学数据挖掘的计算量和挖掘难度,同时很好的建立起了原始数据与真实物理过程的内在联系。主要有以下几方面的工作:1.描述了科学数据的特点及其基本研究方法,详细介绍了数据挖掘技术和数据挖掘系统的基本理论和知识。2.介绍了独立分量分析的基础知识,包括统计学理论、信息论理论等。3.详细介绍了主分量分析和独立分量分析理论的基本原理,并在最后简单对这两种方法进行了比较。4.介绍了HDF5(Hierarchical Data Format 5,简称HDF5)这种科学数据格式,并将ICA技术应用到数值模拟程序产生的HDF5格式的实验数据的挖掘上,有效的降低科学数据的维度,准确的提取了科学数据所对应物理过程的特征,直观的表达了挖掘结果。5.介绍了电子回旋共振(Electron Cyclotron Resonance,简称ECR)等离子体流,对计算机模拟的ECR实验数据使用ICA技术进行挖掘,得到了与HDF5数据类似的结果,进一步验证了ICA技术能发现科学数据内部有价值的兴趣点、提高分析数据的效率和准确性,表明ICA在大规模科学数据挖掘领域有着良好的应用前景。
其他文献
随着科技的飞速发展,网络成为人们交换、获取信息的新平台,其中电子邮件以其快捷、经济的特点,改变了传统的通信方式,成为人们重要的通信手段。电子邮件给人们带来便利的同时,也给
随着软件技术的发展和软件项目规模的不断扩大,软件测试的作用越来越重要。面向对象技术给软件测试带来了新的挑战,而面向对象软件的集成测试是面向对象软件测试必不可少的部
数据持久层是一组软件服务,将应用程序与该程序所使用的数据源分离,为整个项目提供一个统一、安全、并发的数据持久机制。持久层位于数据源之上,提供访问这些数据源的应用程序接
机器学习是一个正处于发展壮大中的学科。因此,机器学习的研究趋势,应该是越来越多的数学家加入其中研究构造有坚实理论基础的学习方法。本文在李群机器学习(LML)的理论框架
第四媒体互联网的迅速发展,使数字互动娱乐延伸到新的领域,网络游戏是近年来得到广泛关注并且发展极为迅速的一个产业,如今我国的网络游戏业的巨大市场使得游戏从业人员不断发展
随着互联网的高速发展以及PB级海量信息存储需求的出现,以富于表现力的对象作为访问接口的对象存储系统克服了块接口和文件接口的不足,成为海量信息存储系统的一种主流架构。
本课题主要针对USB接口的远程数据采集系统的设计。采用USB-RS485接口弥补了单独采用USB总线或单独采用RS485、RS232总线的数据采集系统的缺点,实现了高速、低成本、远距离、
移动自组网(MANET)是由一组带无线收发装置的移动终端组成的一个多跳的临时性自治系统。由于它不依赖固定的基础通信设施,没有中心控制节点,抗毁性强,因此适用于许多网络布线
网络蠕虫以其快速、多样化的传播方式不断给网络世界带来灾害,与传统的主机病毒相比,网络蠕虫具有更强的繁殖能力和破坏能力。从蠕虫爆发到蠕虫被消灭的时间却越来越长,但从
随着农业信息化的快速发展,农业专家系统在农业生产中占有越来越重要的地位。然而,在农业专家系统的使用过程中,用户需要对相应专家系统中一系列的提问进行表述和提示性的选择,使