论文部分内容阅读
高维数据,如航天遥感数据、生物数据、网络数据以及金融市场交易数据等,其处理面临两个问题:一是维数灾难(curses of dimensionality)问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战;二是维数的增长又带来“维数福音”,高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。降维方法作为克服“维数灾难”的有效手段,已经引起了人们广泛的注意,相应研究方兴未艾。本文提出并研究了高维数据集结构的问题,并对其在降维过程中的应用进行了广泛而深入的探讨。 本文工作主要包括四部分: 1.简要概述了高维数据处理领域的发展状况以及它所蕴含的一些问题,如“维数灾难”问题、高维空间中的几何问题等。同时对常用线性降维方法(主成分分析、投影寻踪)和非线性降维方法(多维尺度方法、ISOMAP方法、局部线性嵌入方法、Lapalacian Eigenmap)进行了直觉上的分析,说明高维数据集合的降维过程(包括线性、非线性降维)可分解为既相互独立又相互关联的三个阶段:1)数据集结构的描述;2)数据集结构的度量准则;3)基于结构的降维准则。从而发现,降维方法的提出和形成主要包含三个方面的工作,1)建立研究问题的相应数学模型,数据集结构模型;2)对该模型提出相应的度量准则或选择规则;3)建立基于数据集结构的降维准则或损失规则。 2.提出并详细地探讨了数据集结构的概念,以及由其引出的关于数据集结构本身所蕴含的一些问题,如结构的性质、结构的优良性、结构与数据之间的关系等。分析表明:1)结构概念可较好的解释常用线性、非线性降维方法的来源问题,降维结果的优良性问题,不同降维方法之间的差异问题,以及不同场合下降维方法的选择问题等;2)可根据数据集结构的不断改善和新结构的不断提出,改进现有降维方法的效能和探求新的更加有效的降维方式;3)可将线性、非线性降维方法统一起来,进行统一的探讨,寻找既具有线性降维的优良性又具有非线性降维特征的新的降维方式。 3.在数据集结构框架下,对常用的线性降维方法(主成分分析、投影寻踪),非线性降维方法(局部线性嵌入方法、Laplacian Eigenmap)进行了再描述,主要包括方法的数据集结构是什么的问题以及降维准则是什么的问题,并且进一步通过对数据集结构的分析提出了,一种新的线性降维方法,局部不变投影方法和一种新的非线性降维方法,保持数据集拓扑结构的低维嵌入方法,以及常用的局部线性嵌入方法的一种改进,稳健局部线性嵌入方法,同时还提出了一种探求数据集合本征维数的方法,基于LLE方法的本征维数估计,并通过实例验证了这些方法的有效性。 4.给出了高维数据处理中的降维方法在多源数据处理领域中的两个应用实