论文部分内容阅读
数据降维算法在图像、声音和视频分析领域有着广阔的应用前景。近年来数据降维算法受到越来越多研究人员的关注。流形学习降维算法主要分为线性降维算法和非线性降维算法。主分量分析算法是线性降维算法的代表,其特点是通过对现有数据样本的分析,学习到一个映射矩阵,然后通过对数据样本的线性映射将高维空间的数据映射至低维空间,线性降维算法的优点是计算复杂度低,但对本质非线性分布的数据降维效果并不好,即在降维过程中会损失数据分布的一些重要特征。等距映射算法、局部线性嵌入算法及拉普拉斯映射算法是非线性降维算法的代表,其特点是通过非线性映射的方式将数据从高维空间映射至低维空间,具体又分为全局降维算法及局部降维算法。等距映射算法就是典型的全局降维算法,其特点是在降维过程中尽量保持数据分布的全局结构,算法优点是保证全局结构不变,缺点是计算复杂度高不适合实时应用。局部线性嵌入算法及拉普拉斯映射算法则是典型的局部降维算法,其优点是在降维过程中只保证数据分布的局部结构,这样降维后数据的整体分布会有所变形,但计算复杂度低,适合实时应用。论文首先介绍了一些经典的流形学习算法,并对现有流形学习算法进行分析,指出当前流形学习算法普遍存在的问题及主要研究热点,并据此展开如下研究:首先,针对传统流形学习降维算法中相似性度量问题,提出两种基于马氏距离度量的流形学习降维算法,两种算法分别将马氏距离度量应用于局部线性嵌入算法及拉普拉斯映射算法的近邻确定过程及新样本的识别过程。算法通过对现有数据样本的分析得出马氏度量的系数矩阵,再根据得到的马氏度量计算每个数据样本的近邻,继而进行数据从高维空间向低维空间的非线性映射。同样在新样本的降维及识别过程中也要用马氏度量确定其近邻及最终所属分类。其次,针对高维数据本质结构问题,提出自适应局部线性嵌入算法,传统流形学习降维算法通常依靠K近邻算法确定每个数据样本的近邻数,但K值如何获取却少有方法,通常使用的试凑法需要耗费较多时间,因此提出自适应局部线性嵌入算法,根据数据样本分布情况,自动为每个数据样本指定一个合适的阈值,当其他样本与该样本的距离小于此阈值时,则确定其为该样本的近邻,否则不是该样本的近邻。算法不但解决了流形学习降维算法中的K值选取的问题,而且根据数据样本分布情况为每个数据样本指定不同的K值,相对于传统流形学习降维算法中为每个样本指定相同K值的方式,自适应局部线性嵌入算法更合理。再次,针对图像降维算法需要将图像数据转变为图像向量的问题,提出一种线性的二维降维算法——改进的基于模块的主分量分析算法,该算法是对基于模块的主分量分析算法的一个改进,改变了原算法中图像均值计算方法及新样本识别方法,还通过理论分析证明了二维主分量分析算法是改进算法的一个特例。最后,针对图像降维算法需要将图像数据转变为图像向量的问题,提出一种非线性的二维降维算法——二维局部线性嵌入算法,算法通过理论分析指出二维主分量分析算法实质是基于行的主分量分析算法,而局部线性嵌入算法又可以看作主分量分析算法的一个非线性扩展,基于以上原因提出基于行(或列)的局部线性嵌入算法——二维局部线性嵌入算法。